Character encoding 这对捷克人来说是罕见的字符编码吗?

Character encoding 这对捷克人来说是罕见的字符编码吗?,character-encoding,Character Encoding,我最近在多个文件中下载了千兆字节的数据(文本),我想自动处理这些文件。但是,文本的字符集或实际编码是错误的。问题是文本编辑器,如Notepad++、SublimiteText 3或Word,只将其检测为ANSI。我已经尝试了所有可用的字符集,但仍有部分文件不正确 默认ANSI编码(错误的特殊字符): 泽伦岛附近的奥布杰武耶河(OBJEVUJE SE ZELENÁKNÍKA) Frantík Severýn sedína prázdných bednách od cukru,pohupuje bo

我最近在多个文件中下载了千兆字节的数据(文本),我想自动处理这些文件。但是,文本的字符集或实际编码是错误的。问题是文本编辑器,如Notepad++、SublimiteText 3或Word,只将其检测为ANSI。我已经尝试了所有可用的字符集,但仍有部分文件不正确

默认ANSI编码(错误的特殊字符):

泽伦岛附近的奥布杰武耶河(OBJEVUJE SE ZELENÁKNÍKA)

Frantík Severýn sedína prázdných bednách od cukru,pohupuje bosýma nohama a naslouchákázánípáněBočanovu。卡扎尼·内帕特·杰姆,nýbrľ 潘尼比尔科夫,克特拉·斯托吉·普尔滕。Frantík se tváří,jako by se nezajímalo nic jiného neľo svézablácenéklátíse nohy。扎蒂姆·瓦拉克 napínáuąi,aby mu neuąlo ani Slovičko

»Tak to dál nepůjde,milápani,«křičhokynáa jeho tlustýzátylek 我是鲁德兹洛斯蒂。»Jedno zboínezaplatíte a uľzas chcete novéna dluh。 科帕克·西·迈斯莱特,克拉杜

ISO 8859-2编码(错误的引号):

在泽伦岛附近

Frantík Severýn sedína prázdných bednách od cukru,pohupuje bosýma nohama a naslouchákázánípáněBočanovu。卡扎尼·内帕特·杰姆,nýbrž 潘尼比尔科夫,克特拉·斯托吉·普尔滕。Frantík se tváří,jako by se nezajímalo nic jiného nežo svézablácenéklátíse nohy。扎蒂姆·瓦萨克 纳皮诺,阿比·穆纽什洛·阿尼·斯洛维科

塔克到达勒·内普·杰德、米拉帕尼、杰奥·特鲁斯特·扎泰勒 我是鲁德兹洛斯蒂。ťJedno zbožnezaplatíte a užzas chcete novéna dluh。 科帕克·西·迈斯莱特,že kradu?Ť

所需输出:

在泽伦岛附近

Frantík Severýn sedína prázdných bednách od cukru,pohupuje bosýma nohama a naslouchákázánípáněBočanovu。卡扎尼·内帕特·杰姆,nýbrž 潘尼比尔科夫,克特拉·斯托吉·普尔滕。Frantík se tváří,jako by se nezajímalo nic jiného nežo svézablácenéklátíse nohy。扎蒂姆·瓦萨克 纳皮诺,阿比·穆纽什洛·阿尼·斯洛维科

»Tak to dál nepůjde,milápani,«křičhokynáa jeho tlustýzátylek 我是鲁德兹洛斯蒂。»Jedno zbožnezaplatíte a užzas chcete novéna dluh。 科帕克·西·迈斯莱特,že kradu?«

这是什么字符编码?

阅读后,我怀疑它可能是旧的/遗留的,但我不知道如何修复它,因为我不知道任何支持它的软件。另一种选择是,它可能只是损坏了,因为所有的量化标记似乎都被编码为ť/Ť。我如何验证这一点

编辑:十六进制信息:

KNͮKA = 4B 4E CD AE 4B 41
»Tak to dál nepůjde = BB 54 61 6B 20 74 6F 20 64 E1 6C 20 6E 65 70 F9 6A 64 65
co má chu» vstát = 63 6F 20 6D E1 20 63 68 75 BB 20 76 73 74 E1 74

使用UTF-8,不是ascii,不是iso-…,不是拉丁语

latin1很接近,但错过了
ř

你说它是“下载的”。你能给我们看一下有关字符的十六进制吗

»Žřč
转换为十六进制:
UTF-8中的C2BB C5BD C599 C48D——唯一一个可以处理所有字符的
BB 8E 3F 3F
拉丁语1
cp1250中的BB 8E F8 3F

3F AE F8 E8
拉丁语2
注:3F是
,表示转换问题


Hex
BB
是拉丁文的
ť

您最近下载了千兆字节的数据。是与商业相关,还是与学术相关?根据具体情况,第一步可能是询问维护或创建原始文件的人员。然后在特定于该语言的论坛上尝试一些专家。这是一本非常有趣的书,这些是txt格式的常规书籍,主要是科幻小说和幻想小说,我想对它们进行统计分析。不幸的是,数据的来源很难联系到……不幸的是,我不熟悉这种语言。需要几天时间才能找到解决方案。要做的一件事是尝试使用一些解析器来验证拼写的正确性。然后你可以把有问题的分类。然而,请小心你在用这些书做什么。其中一些可能有版权。科幻小说并不是那么古老的东西。@KrassiEm,谢谢,我会记住这一点,尽管出于科学目的的衍生作品通常很好:)如果你在Linux上工作,也许你可以为sed(流编辑器)制定正确的模式来执行更正?我很想听听其他对这件事更了解的人的意见。似乎ť和»的编码方式完全相同,因为BB表示信息丢失了吗?我在DL页面上读到,在捷克Windows上用Calibre转换该文件解决了这个问题,但在我的波兰语Windows上它对我不起作用,我也不知道源代码有多可信。如果我读得正确(不是说它是权威资源),捷克语中的“引号”是
,而不是
«
。因此,如果你需要角引号和重音符号
ť
,你不去utf8就不能同时得到它们。我在讨论的文本中没有看到
ť
,那么真的有问题吗?“co máchu»vstát”← 这应该是一个
ť
,而不是
«
。引号我可以修复,但是区分引号和实际的
ť
可能有点棘手……如果输入文件有hex
BB
,我看不到如何修复它。你是如何转储十六进制的?在你的链接中,
ť
是如何表示的?可能是
t'
?我看不到t、 另外,请注意文档的年代,它提到了Unicode 2.00,这可能有十年的历史了。