Unicode CEDICT的示例解析器代码

Unicode CEDICT的示例解析器代码,unicode,utf-8,dictionary,cjk,Unicode,Utf 8,Dictionary,Cjk,有人有解析CEDICT文件的示例代码吗?CEDICT是一本汉英词典。例如,当前,如果我在文本编辑器中打开它,CEDICT文件中的一行如下所示: ‰∏ç ‰∏ç[bu4]/(负前缀)/not/no/ 我想把它看作: 不 不 [bu4]/(负前缀)/非/否/ 我发现Textwrangler作为一个文本编辑器为我做这件事。我现在需要的是实现相同功能的示例代码。问题是,这只是一个编码问题。如果这条线看起来像 ‰∏ç ‰∏ç[bu4]/(负前缀)/not/no/ 这是因为文本编辑器不知道/意识到文本编码为

有人有解析CEDICT文件的示例代码吗?CEDICT是一本汉英词典。例如,当前,如果我在文本编辑器中打开它,CEDICT文件中的一行如下所示:

‰∏ç ‰∏ç[bu4]/(负前缀)/not/no/

我想把它看作:

不 不 [bu4]/(负前缀)/非/否/


我发现Textwrangler作为一个文本编辑器为我做这件事。我现在需要的是实现相同功能的示例代码。

问题是,这只是一个编码问题。如果这条线看起来像

‰∏ç ‰∏ç[bu4]/(负前缀)/not/no/

这是因为文本编辑器不知道/意识到文本编码为UTF-8。Text Wrangler或其老大哥BBEdit非常擅长猜测编码,甚至可以被要求以特定编码显示文本

因为我们不知道你最终想要实现什么,所以很难确切地告诉你必须要做什么。我可以说的是,您的应用程序(您使用的是哪种语言?)需要支持Unicode(并且能够读取/操作UTF字符串)

我写了两个基于CEDICT的应用程序,一个用于MacOSX,一个用于Android。解析和索引CEDICT不是很难

更新 关于CEDICT的解析本身,它并不复杂。我不做Objective-C,从未做过,也永远不会做,但过程在任何语言中都是一样的:

  • 读一行。举个你自己的例子:不 不 [bu4]/(负前缀)/非/否/
  • 您有四个字段:Trad。陈,辛普。第三章,阅读,意义。 这些字段是空间分隔的。当然,第四个字段可能包含空格,所以要小心
  • 将4个字段存储到数据库中(我使用了sqlite数据库)。 您可能希望从定义字段中删除斜杠,并用其他内容替换它们
  • 环路

您现在已将CEDICT转换为数据库。这是最简单的部分。至于标记汉语,祝你好运,伙计。比我聪明的人还在为这件事绞尽脑汁。

非常感谢dda。我正在编写一个iphone应用程序,它可以将中文文本(文章、电子邮件、故事等)以合理的准确性翻译成英文。OBECT C中的任何示例代码(例如,如何将汉字流标记为单词,如何在CEDICT中搜索给定的中文单词等)都是不错的。请注意,我正在开发一个商业应用程序。再次感谢dda。我把这些问题留了几天没有回答,看看是否有人能给我任何答复。这可能会引起你的兴趣。。。