Unicode CEDICT的示例解析器代码_Unicode_Utf 8_Dictionary_Cjk

Unicode CEDICT的示例解析器代码

unicode utf-8 dictionary

Unicode CEDICT的示例解析器代码,unicode,utf-8,dictionary,cjk,Unicode,Utf 8,Dictionary,Cjk,有人有解析CEDICT文件的示例代码吗？CEDICT是一本汉英词典。例如，当前，如果我在文本编辑器中打开它，CEDICT文件中的一行如下所示： ‰∏ç ‰∏ç[bu4]/（负前缀）/not/no/ 我想把它看作：不不 [bu4]/（负前缀）/非/否/ 我发现Textwrangler作为一个文本编辑器为我做这件事。我现在需要的是实现相同功能的示例代码。问题是，这只是一个编码问题。如果这条线看起来像 ‰∏ç ‰∏ç[bu4]/（负前缀）/not/no/ 这是因为文本编辑器不知道/意识到文本编码为

有人有解析CEDICT文件的示例代码吗？CEDICT是一本汉英词典。例如，当前，如果我在文本编辑器中打开它，CEDICT文件中的一行如下所示：

‰∏ç ‰∏ç[bu4]/（负前缀）/not/no/

我想把它看作：

不不 [bu4]/（负前缀）/非/否/

我发现Textwrangler作为一个文本编辑器为我做这件事。我现在需要的是实现相同功能的示例代码。

问题是，这只是一个编码问题。如果这条线看起来像

‰∏ç ‰∏ç[bu4]/（负前缀）/not/no/

这是因为文本编辑器不知道/意识到文本编码为UTF-8。Text Wrangler或其老大哥BBEdit非常擅长猜测编码，甚至可以被要求以特定编码显示文本

因为我们不知道你最终想要实现什么，所以很难确切地告诉你必须要做什么。我可以说的是，您的应用程序（您使用的是哪种语言？）需要支持Unicode（并且能够读取/操作UTF字符串）

我写了两个基于CEDICT的应用程序，一个用于MacOSX，一个用于Android。解析和索引CEDICT不是很难

更新关于CEDICT的解析本身，它并不复杂。我不做Objective-C，从未做过，也永远不会做，但过程在任何语言中都是一样的：

读一行。举个你自己的例子：不不 [bu4]/（负前缀）/非/否/
您有四个字段：Trad。陈，辛普。第三章，阅读，意义。这些字段是空间分隔的。当然，第四个字段可能包含空格，所以要小心
将4个字段存储到数据库中（我使用了sqlite数据库）。您可能希望从定义字段中删除斜杠，并用其他内容替换它们
环路

您现在已将CEDICT转换为数据库。这是最简单的部分。至于标记汉语，祝你好运，伙计。比我聪明的人还在为这件事绞尽脑汁。

非常感谢dda。我正在编写一个iphone应用程序，它可以将中文文本（文章、电子邮件、故事等）以合理的准确性翻译成英文。OBECT C中的任何示例代码（例如，如何将汉字流标记为单词，如何在CEDICT中搜索给定的中文单词等）都是不错的。请注意，我正在开发一个商业应用程序。再次感谢dda。我把这些问题留了几天没有回答，看看是否有人能给我任何答复。这可能会引起你的兴趣。。。