C语言中的11个Unicode编码值具体是什么?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2365个文字,预计阅读时间需要10分钟。
在C++98中,为了支持Unicode字符,使用wchar_t类型来表示宽字符,但wchar_t的宽度并没有严格规定,而是由编译器实现决定。不同的编译器可能有不同的实现方式。
1.char16_t与char32_t
在C++98中,为了支持Unicode字符,使用wchar_t类型来表示“宽字符”,但并没有严格规定位宽,而是让wchar_t的宽度由编译器实现,因此不同的编译器有着不同的实现方式,GNU C++规定wchar_t为32位,Visual C++规定为16位。由于wchar_t宽度没有一个统规定,导致使用wchar_t的代码在不同平台间移植时,可能出现问题。这一状况在C++11中得到了一定的改善,从此Unicode字符的存储有了统一类型:
(1)char16_t:用于存储UTF-16编码的Unicode字符。
(2)char32_t:用于存储UTF-32编码的Unicode字符。
至于UTF-8编码的Unicode数据,C++11还是使用了8bits宽度的char类型数组来表示,而char16_t和char32_t的宽度由其名称可以看出,char16_t为16bits,char32_t为32bits。
2.定义字符串的5种方式
除了使用新类型char16_t与char32_t来表示Unicode字符,此外,C++11还新增了三种前缀来定义不同编码的字符串,新增前缀如下:
(1)u8表示为UTF-8编码;
(2)u表示为UTF-16编码;
(3)U表示为UTF-32编码。
本文共计2365个文字,预计阅读时间需要10分钟。
在C++98中,为了支持Unicode字符,使用wchar_t类型来表示宽字符,但wchar_t的宽度并没有严格规定,而是由编译器实现决定。不同的编译器可能有不同的实现方式。
1.char16_t与char32_t
在C++98中,为了支持Unicode字符,使用wchar_t类型来表示“宽字符”,但并没有严格规定位宽,而是让wchar_t的宽度由编译器实现,因此不同的编译器有着不同的实现方式,GNU C++规定wchar_t为32位,Visual C++规定为16位。由于wchar_t宽度没有一个统规定,导致使用wchar_t的代码在不同平台间移植时,可能出现问题。这一状况在C++11中得到了一定的改善,从此Unicode字符的存储有了统一类型:
(1)char16_t:用于存储UTF-16编码的Unicode字符。
(2)char32_t:用于存储UTF-32编码的Unicode字符。
至于UTF-8编码的Unicode数据,C++11还是使用了8bits宽度的char类型数组来表示,而char16_t和char32_t的宽度由其名称可以看出,char16_t为16bits,char32_t为32bits。
2.定义字符串的5种方式
除了使用新类型char16_t与char32_t来表示Unicode字符,此外,C++11还新增了三种前缀来定义不同编码的字符串,新增前缀如下:
(1)u8表示为UTF-8编码;
(2)u表示为UTF-16编码;
(3)U表示为UTF-32编码。

