Html 从随机/垃圾ASCII恢复原始UTF8/汉字/中文文本

Html 从随机/垃圾ASCII恢复原始UTF8/汉字/中文文本,html,utf-8,character-encoding,ascii,Html,Utf 8,Character Encoding,Ascii,我知道这可能不可能,但我还是想尝试一下 所以我有一些数据作为html表单提交的结果。用户最初在某些字段中键入汉字。但我得到的只是这样的随机ascii字母: æŽåŽŽ² 我已经修复了编码问题,以便新表单提交可以很好地处理utf8,但我想看看是否可以在修复之前恢复旧数据和正确的汉字 谢谢你的帮助 更新: 我想需要澄清一下。正如我所说,我已经解决了html表单的编码问题。实际的问题是是否可以从我已经收到的垃圾数据中恢复原始汉字 例如,我正在尝试对以下内容进行反向工程 ôüÒýR å¼µå¥éºŸ

我知道这可能不可能,但我还是想尝试一下

所以我有一些数据作为html表单提交的结果。用户最初在某些字段中键入汉字。但我得到的只是这样的随机ascii字母:

æŽåŽŽ²

我已经修复了编码问题,以便新表单提交可以很好地处理utf8,但我想看看是否可以在修复之前恢复旧数据和正确的汉字

谢谢你的帮助

更新:

我想需要澄清一下。正如我所说,我已经解决了html表单的编码问题。实际的问题是是否可以从我已经收到的垃圾数据中恢复原始汉字

例如,我正在尝试对以下内容进行反向工程

ôüÒýR
å¼µå¥éºŸ
冉榆平
·¨¶vÚ¬
在汉字或中文中,每一行都应该是某人的名字。我尝试了所有合理的编码,如GBK、gb18030和Big5 HKSCS。到目前为止运气不好

最近更新:

现在有一些关于BIG5编码的运气。它对所有垃圾数据都不起作用,但对其中大约2/3的垃圾数据起作用。

这些字母不是ASCII。没有ASCII字母有任何类型的重音

不清楚你是如何读取这些数据的——是来自文件、数据库还是其他什么?无论如何,它可能已经在UTF-8中了,所以您应该尝试使用这种编码来读取它。您还没有告诉我们您使用的是什么平台,但您应该确保无论您使用什么平台,您都可以通过数字找到您读取的Unicode字符-这比将值打印为字符要可靠得多。

这些字母不是ASCII。没有ASCII字母有任何类型的重音

不清楚你是如何读取这些数据的——是来自文件、数据库还是其他什么?无论如何,它可能已经在UTF-8中了,所以您应该尝试使用这种编码来读取它。您还没有告诉我们您使用的是什么平台,但您应该确保无论您使用什么平台,都可以通过数字找到您读取的Unicode字符-这比将值打印为字符要可靠得多。

使用

输入编码应为UTF8

对于输出编码,请尝试东方字符的所有合理编码

记住选中第二个复选框

大部分(如果不是全部的话)垃圾信件都应该被回收。

使用

输入编码应为UTF8

对于输出编码,请尝试东方字符的所有合理编码

记住选中第二个复选框


大多数(如果不是所有的话)垃圾字母都应该被恢复。

仅供参考,java字符串类由2字节字符支持,并在unicode仅为2字节时设计。因此,它不处理3字节的日语和汉语字符。请参见

FYI,java字符串类由2字节字符支持,并在unicode仅为2字节时设计。因此,它不处理3字节的日语和汉语字符。请参见服务器设置中的平台设置?这是一个常规的灯设置。我很确定ASCII-II有重音字符。无论如何,并不是所有的旧数据都显示为随机字母。我开始怀疑这与用户输入汉字的方式有关。最后,是的,你建议我如何解决这个问题-通过使用JS显式地将utf8转换为xml实体。同样,真正的问题是如何将旧数据恢复为常规汉字。@Dave:ASCII本身没有任何重音字符。我不知道你说的ASCII-II是什么意思,但是如果它是许多8位编码中的一种,叫做扩展ASCII,那么你应该知道那不是ASCII。但您仍然没有明确说明如何从一开始接收数据,或者如何存储数据,或者如何读取数据。它在档案里吗?它在数据库中吗?您的web应用程序是用什么语言编写的?请给我们更多的背景。有关什么是好问题的建议,请参阅。平台是否与服务器设置相同?这是一个常规的灯设置。我很确定ASCII-II有重音字符。无论如何,并不是所有的旧数据都显示为随机字母。我开始怀疑这与用户输入汉字的方式有关。最后,是的,你建议我如何解决这个问题-通过使用JS显式地将utf8转换为xml实体。同样,真正的问题是如何将旧数据恢复为常规汉字。@Dave:ASCII本身没有任何重音字符。我不知道你说的ASCII-II是什么意思,但是如果它是许多8位编码中的一种,叫做扩展ASCII,那么你应该知道那不是ASCII。但您仍然没有明确说明如何从一开始接收数据,或者如何存储数据,或者如何读取数据。它在档案里吗?它在数据库中吗?您的web应用程序是用什么语言编写的?请给我们更多的背景。看见
关于什么是一个好问题的建议。将元信息添加到您的站点和表示其编码为UTF-8的表单中,然后您应该在服务器上获取UTF-8数据。然后,您只需要将其正确地视为UTF-8。你对你正在做的事情给出的细节太少了,这个问题无法以当前的形式得到合理的回答。另外:抱歉,修复html表单中的编码不是我的问题。正如标题所说,我对从垃圾信件中恢复原始/有效文本感兴趣。表单的编码问题已经得到解决。我将在问题中添加更多说明,并阅读您的编码101链接。阅读文章。顺便说一句,读得好。我现在有点运气将BIG5编码应用到垃圾信件中。我想除了一个接一个地尝试那些合理的编码之外,没有什么简单的方法可以做到这一点。介意把你的评论转录成一个答案吗?在那里包括你的文章链接。正如我在文章中所说的,是否可以恢复取决于它最初是如何被破坏的。将元信息添加到你的站点和表示其编码为UTF-8的表单中,然后你应该在服务器上获得UTF-8数据。然后,您只需要将其正确地视为UTF-8。你对你正在做的事情给出的细节太少了,这个问题无法以当前的形式得到合理的回答。另外:抱歉,修复html表单中的编码不是我的问题。正如标题所说,我对从垃圾信件中恢复原始/有效文本感兴趣。表单的编码问题已经得到解决。我将在问题中添加更多说明,并阅读您的编码101链接。阅读文章。顺便说一句,读得好。我现在有点运气将BIG5编码应用到垃圾信件中。我想除了一个接一个地尝试那些合理的编码之外,没有什么简单的方法可以做到这一点。介意把你的评论转录成一个答案吗?包括你的文章链接在那里。正如我在文章中所说,一些东西是否可以恢复取决于它如何在第一时间被打破。好工具!从iso-8859-1到utf-8,返回“Ô和“Á”。怎么可能?好工具!从iso-8859-1到utf-8,返回“Ô和“Á”。怎么可能呢?