유니코드 학습 자료 공유 #58
kuro11pow2
started this conversation in
Knowledge Share
Replies: 5 comments 8 replies
-
감사합니다! 공부하다 추가적인 내용 있으면 커멘트 달겠습니다 :) |
Beta Was this translation helpful? Give feedback.
1 reply
-
왓!!! 감사합니다! 저도 더 찾아볼게요! |
Beta Was this translation helpful? Give feedback.
1 reply
-
잘 정리해주셔서 감사합니다!! 자그마한 오류 제보해봅니다🔧
ASCII 인코딩: 01000010 -> 01000001 |
Beta Was this translation helpful? Give feedback.
4 replies
-
저도 추가로 알게 되는 부분이 있으면 추가로 코멘트 달겠습니다! |
Beta Was this translation helpful? Give feedback.
1 reply
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
개인적으로 정리한 자료 공유합니다 😄
빠진 부분, 틀린 부분 제보 부탁드립니다!! 🙏
유니코드
전 세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준입니다.
구성
ISO 10646 문자 집합, 문자 인코딩, 문자 정보 데이터베이스, 문자들을 다루기 위한 알고리즘 등.
테이블
코드 포인트
문자가 대응된 테이블 상의 수입니다.
인코딩
코드 포인트를 바이너리 데이터에 매핑하는 규칙입니다.
UTF-8과 UTF-16
인코딩 규칙
코드 포인트가 범위중 어디에 속하는지 확인하고, 우측의 규칙에 맞게 코드 포인트의 높은 자리 비트부터 x에 채워 넣으면 됩니다.
특징
UTF-8
UTF-16
코드 포인트의 매핑 예시
문자: "A"
코드포인트: U+0041 (00000000 01000001)
ASCII 인코딩: 01000001
UTF-8 인코딩: 01000001
문자: "가"
코드포인트: U+AC00 (10101100 00000000)
ASCII 인코딩: 없음
UTF-8 인코딩: 11101010 10110000 10000000
인코딩 탐지
UTF-8 표현은 1110 과 같이 첫 바이트에서 현재 문자가 몇 바이트로 한 덩어리인지 알려주고 해당 바이트만큼 10으로 시작하는 표현이 따라온다는 독특한 특징이 있기 때문에 다른 인코딩에서 똑같은 패턴이 지속적으로 발견되기는 매우 어렵습니다. 또한 UTF-8은 ASCII를 포함하기 때문에 저희 환경에서는 입력받은 문자열이 UTF-8이 아니라면 UTF-16로 간주할 수 있습니다.
참고
https://ko.wikipedia.org/wiki/UTF-8
https://ko.wikipedia.org/wiki/유니코드
https://d2.naver.com/helloworld/76650
https://ko.wikipedia.org/wiki/%ED%95%9C%EA%B8%80_%EC%9D%8C%EC%A0%88
https://modoocode.com/292
Beta Was this translation helpful? Give feedback.
All reactions