C 为什么U+的UTF-8编码为2字节；1xxxx字符？_C_Unicode_Utf 8 - Fatal编程技术网

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/c/64.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
C 为什么U+的UTF-8编码为2字节；1xxxx字符？_C_Unicode_Utf 8 - Fatal编程技术网

C 为什么U+的UTF-8编码为2字节；1xxxx字符？

c unicode utf-8

C 为什么U+的UTF-8编码为2字节；1xxxx字符？,c,unicode,utf-8,C,Unicode,Utf 8,我试图弄清楚C如何处理Unicode中的字符代码。我将语言环境设置为LC_ALL“fr_CA.UTF8”，然后用wscanf（）输入一个字符（作为wchar\u t的数组）。然后我探索每个字节，发现一些奇怪的东西。我输入了一个高音键（“如果您正确地打印了构成wchar\u t值的字节，或者如果您只是跳过它，并且在不尝试将其拆分为字节的情况下打印它们的值，您将看到您期望的结果： wprintf(L"%x\n", (int)input[0]); wprintf(L"%x\n", (int)input

我试图弄清楚C如何处理Unicode中的字符代码。我将语言环境设置为LC_ALL“fr_CA.UTF8”，然后用

wscanf（）

输入一个字符（作为

wchar\u t

的数组）。然后我探索每个字节，发现一些奇怪的东西。我输入了一个高音键（“如果您正确地打印了构成

wchar\u t

值的字节，或者如果您只是跳过它，并且在不尝试将其拆分为字节的情况下打印它们的值，您将看到您期望的结果：

wprintf(L"%x\n", (int)input[0]);
wprintf(L"%x\n", (int)input[1]);

其结果是：

1d11e
0

您尝试这样做的方式表明，您错误地认为

wchar\u t

值是16位的，并且存在“多

wchar\u t

-字符”这样的东西。C语言非常明确地表示没有这样的东西。使用16位

wchar\u t

的实现是错误的（或者至少不能在BMP之外支持Unicode）。当然，一个相当流行的版本是大错特错的

我刚刚注意到您在问题的标题中也提到了UTF-8，但内容与UTF-8表示无关。

wchar\u t

是（通常；不完全是必需的）Unicode代码点编号，相当于UCS-4（或仅支持BMP的实现中的UCS-2）。而语言环境的多字节编码几乎肯定必须是UTF-8才能访问该字符（尽管GB18030也可以使用），如果将所有流作为宽字符流处理，则不会显示UTF-8。

如果正确打印了构成

wchar\t

值的字节，或者如果您只是跳过该操作并打印了它们的值，而没有尝试将其拆分为字节，您将看到预期结果：

wprintf(L"%x\n", (int)input[0]);
wprintf(L"%x\n", (int)input[1]);

其结果是：

1d11e
0

您尝试这样做的方式表明，您错误地认为

wchar\u t

值是16位的，并且存在“多

wchar\u t

-字符”这样的东西。C语言非常明确地表示没有这样的东西。使用16位

wchar\u t

的实现是错误的（或者至少不能在BMP之外支持Unicode）。当然，一个相当流行的版本是大错特错的

我刚刚注意到您在问题的标题中也提到了UTF-8，但内容与UTF-8表示无关。

wchar\u t

是（通常；不完全是必需的）Unicode代码点编号，相当于UCS-4（或仅支持BMP的实现中的UCS-2）。而语言环境的多字节编码几乎肯定必须是UTF-8才能访问该字符（尽管GB18030也可以使用），如果将所有流作为宽字符流处理，UTF-8将不会出现。

是否有第三个字节没有打印？输出

，所以首先要做的是确定wchar\u t的大小。呃…@ikegami，似乎你是对的。@nyrguds我知道数据位之间有控制位。Could可能还有第三个字节没有打印？输出所以首先要做的是确定wchar\u t的大小。呃…@ikegami似乎你是对的。@nyrguds我知道数据位中有控制位。在BMP之外，re“不支持Unicode”，除非他们使用代理。例如，JavaScript就是这样做的。我猜“一个非常流行的”这就是为什么我不明白的原因。wchar\u t
在Linux上是32位的，在Windows上是16位的。所以，如果我理解正确的话，在Linux上用2wchar\u t
来表示字符串，在Windows上用3来表示字符串，因为代码点会扩展到16位以上…？但在Linux上是64位，在Windows上是48位…@ikegami:那是C的wchar\u t
和相关接口不可能，因为它们的工作方式。mbrtowc
无法为一个多字节字符输出两个wchar\u t
值（这是基本的，不允许），而isw*
函数无法报告“多wchar\u t
字符”的属性（对于某些用户来说，这可能是一个可接受的限制）。因此，不，将wchar\u t
用作UTF-16是无法解决的（Windows尝试这样做，但破坏了标准C函数，让您使用自己的东西）；它确实与该语言不兼容。Re“无法在BMP之外支持Unicode”，除非他们使用代理。例如，JavaScript就是这样做的。我猜“一个非常流行的”这就是为什么我不明白的原因。wchar\u t
在Linux上是32位的，在Windows上是16位的。所以，如果我理解正确的话，在Linux上用2wchar\u t
来表示字符串，在Windows上用3来表示字符串，因为代码点会扩展到16位以上…？但在Linux上是64位，在Windows上是48位…@ikegami:那是C的wchar\u t
和相关接口不可能，因为它们的工作方式。mbrtowc
无法为一个多字节字符输出两个wchar\u t
值（这是基本的，不允许），而isw*
函数无法报告“多wchar\u t
字符”的属性（对于某些用户来说，这可能是一个可接受的限制）。因此，不，将wchar\u t
用作UTF-16是无法解决的（Windows尝试这样做，但破坏了标准C函数，让您使用自己的东西）；它确实与该语言不兼容。




[unicode]相关文章推荐



                                                        
Unicode 处理国家标志，如ąę；在url中？-你的选择
unicodeinternationalization 
如何为不同的语言分配unicode？
unicodecharacter-encoding 
经典ASP：如何在经典ASP中写入unicode字符串数据？
unicodeasp-classicutf-8 
单空间Unicode字体
unicodefonts 
Unicode命名文件夹显示？在wscript提示符中
unicodevbscriptdirectory 
将Unicode字符打印到PowerShell提示符
unicodewindows-7powershellmercurial 
Unicode 有没有工具可以通过编程将日语句子转换成罗马体（语音阅读）？
unicodenlp 
SSI在Unicode和非Unicode之间转换错误
unicodessis 
Unicode击键字符？
unicodekeyboardprocessing 
编译器是如何如此快速地理解Unicode字符的？
unicodecompiler-construction 
XQuery是否返回Unicode块的名称？
unicodexquery 
如何在Go中将unicode字符串从数据库转换为utf字符串？
unicodego 
高unicode码点如何表示为两个码点？
unicode 
在ApacheFop生成的PDF中显示Unicode字符
unicodefonts 
Unicode-BIDI（UBA）：R-RLI-R；为什么RLI应该保持在0级
unicode 
为什么可以'；我们不能直接存储Unicode吗？
unicodeencodingutf-8 
Unicode 如何判断代码点是否是支持的图示符（例如一些重音）与独立的图示符
unicode 
Unicode Wildfly 13.0.0.最终错误UT005014:未能分析请求：io.undertow.util.BadRequestException:UT000165:无效字符ä；请求中的目标
unicodecharacter-encodinginternationalization 
Unicode UTF-16如何实现自同步？
unicodecharacter-encoding 
Unicode字符不是'；不能正确组合
unicode 
                                       





随机文章推荐



                                                        
如何证明Coq中的命题可拓性？
coq 
Coq中的连词与蕴涵
coq 
如何"；“翻转”；Coq中的一个平等命题？
coq 
如何在Coq中复制一个假设？
coq 
Coq 为什么'Hint Resolve X'失败，'let:X'在哪里工作？
coq 
Coq 如何'；埃利姆'；关于存在量词的研究？
coq 
对Coq中具有2个参数的函数应用函数扩展性
coq 
枚举类型的COQ中的相等性
coq 
coq：左递归表示法必须具有显式级别
coq 
Coq 带产品类型参数的谓词归纳法
coq 
Coq证明助手中的依赖类型问题
coq 
Coq 我怎样才能证明她不能证明或交换，只有介绍和应用？
coq 
Coq 无法找到变量x的实例，即使是显式实例化
coq 
Coq 逻辑：All_In无法展开嵌套的for All
coq 
Coq 如何用复杂的模式匹配进行推理？
coq 
Coq：如何正确地记住依赖值而不弄乱归纳假设？
coq 
Coq 如何增加列表中的标题
coq 
Coq 如何简化等式语句
coq 
Coq 我能以某种方式堆叠隐式类型吗？
coq 
Coq中的偶与投影
coq


                                        

                                        
                                        


                                                
                                                        [c]相关推荐
                                                        
                                                        
                                                

                                                
                                                        Tags
                                                        
D
Debugging
Collections
Ruby On Rails 3
Sublimetext2
Rally
Gremlin
Dynamics Crm 2011
Webstorm
Cuda
Dependency Injection
Keras
Routing
Assembly
Sonarqube
Wicket
Firefox
Time Complexity
Jasper Reports
Visual Studio 2017
Network Programming
Shell
Uwp
Entity Framework Core
Sapui5
Redirect
Google Calendar Api
Azure Devops
Opengl
Hadoop
Geolocation
Encoding
Sip
Actionscript 3
Typo3
Stripe Payments
Omnet++
Parsing
Neo4j
Https
Gis
Elm
Image Processing
Jmeter
Google Chrome Devtools
Scrapy
File
Spring Mvc
Transactions
Knockout.js
Compiler Errors
Reference
Puppet
Grafana
Tkinter
Libgdx
Io
Inheritance
Dotnetnuke
Powerbi
Authentication
Zend Framework
Kotlin
Lua
Server
Web Services
Racket
Xquery
Openstack
Gulp
Nlp
Azure Functions
Terraform
Ag Grid
Windows Phone
Design Patterns
Unity3d
Directory
Dependencies
.net Core
For Loop
Resharper
Pip
Angular
Yocto
Google App Maker
Continuous Integration
Python Sphinx
Automated Tests
Protractor
Flask
Netlogo
Hyperlink
Aurelia
Composer Php
Rss
Kentico
User Interface
Spring Security
Visual C++
Visual Studio 2012
Paypal
Firefox Addon
Passwords
Ibm Cloud
Sprite Kit
Uitableview
Wpf
Netsuite
Virtualbox
Speech Recognition
Function
Ios
Junit
Csv
Log4net
Checkbox
Embedded
Curl
Yii
Orientdb
Apache
Isabelle
Subsonic
Usb
Macros
Sitecore
Fullcalendar
Date
Sequelize.js
Sphinx
Google App Engine
Compilation
View
Documentation
Ignite
Error Handling
Gtk
Keycloak
Laravel
Snmp
Ckeditor
Jekyll
Amp Html
Nativescript
Sml
Jdbc
Data Binding
Database
Ibm Midrange
Xaml
Gitlab
Abap
Encryption
Timer
Postman
Oracle Apex
Clearcase
Vbscript
Install4j
Binding
Video
Npm
Pascal
Navigation
Web Applications
Css
X86
Sugarcrm
Iis
Autodesk Forge
Pdf
Azure
Computer Science
Airflow
Ibm Mq
Workflow
Asp Classic
Jsf
Openlayers 3
Model
Apache Spark
Drop Down Menu
Drupal
Sharepoint
C
.net 4.0
Azure Data Factory
Vb.net
Swift
Spring Batch
Sass
Lotus Notes
Ipad
Google Visualization
Opencart
Ocaml
Maven 2
Command Line
Sublimetext3
Codeigniter


                

                        
						
                        
                                
                                        
                                                
                                                        
                                                                Copyright © 2024. All Rights Reserved by  - Fatal编程技术网