728x90
반응형
# 유니코드
전 세계 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계한 산업 표준코드다.
과거에는 컴퓨터가 영어와 일부 특수문자만 사용했고 이를 저장하기 위해 각 문자별로 1byte식 사용되었다.
시대 흐름에 따라 영어권 외 타국에서도 컴퓨터를 사용하기 시작했고 해당 국가는 자국어도 컴퓨터에 표시하기 위해
1byte에 영어 대신 자국어를 입력하였다.
그러나 이 경우에는 타국의 네트워크에 접속할 때 표준이 맞지 않기 때문에 문제가 되었고 이를 해결하기 위해 산업 표준인 유니코드가 개발되었다.
# UTF-8
유니코드를 인코딩하는 방식으로 문자마다 byte 길이가 다른 가변 인코딩 방식이다.
UTF-8은 표현 가능한 길이는 최대 6byte지만 다른 인코딩과 호환을 위해 4byte까지만 사용한다.
아스키 코드 0~127까지는 1byte식 사용한다.
그리스어, 히브리어 등 라틴계통 언어나 몇가지 계통은 2byte식 사용한다.
한글은 3byte식 사용한다.
4byte는 주로 안쓰는 문자들에 대해서 사용된다고 한다.
반응형
'프로그래밍 > 기타' 카테고리의 다른 글
지표 관련 용어 UUID (universally unique identifier, Unique User identifier) (0) | 2021.02.18 |
---|---|
ASCII - 아스키 (American Standard Code for Information Interchange) (0) | 2021.02.06 |
프로그래머스 - 카펫 (C#) (0) | 2021.01.19 |
프로그래머스 - 모의고사 (C#) (2) | 2021.01.18 |
프로그래머스 - 이중우선순위큐 (C#) (3) | 2021.01.17 |