Python中的希伯来文文本

Python中的希伯来文文本,python,Python,我有一个希伯来文文本文件,我想用Python 2.7将其标记化。但在编码和解码方面总是存在问题。实际上,我需要对它进行标记,以构建一个BagOfWords()功能(例如,获取所有文本中出现超过100个的所有单词) 因此,结果是列出了最常用的希伯来语单词 我试图解码文本: text = text.decode("cp862") 但输出结果如下所示: \u2229\u2557\u2510....... 我想要这个文件作为希伯来语单词列表,而不是ascii或utf-8字符 我感谢你的帮助 谢谢如果

我有一个希伯来文文本文件,我想用Python 2.7将其标记化。但在编码和解码方面总是存在问题。实际上,我需要对它进行标记,以构建一个
BagOfWords()
功能(例如,获取所有文本中出现超过100个的所有单词)

因此,结果是列出了最常用的希伯来语单词

我试图解码文本:

text = text.decode("cp862")
但输出结果如下所示:

\u2229\u2557\u2510.......
我想要这个文件作为希伯来语单词列表,而不是ascii或utf-8字符

我感谢你的帮助


谢谢

如果您的源文本确实包含希伯来文文本,则基于代码页的字符表示转换为通用UNICODE将允许您构建语言语料库分析,内容的表示与内容本身无关,但取决于UI环境

例如,可以编写和显示希伯来文文本,因为小部件可以正确处理适当的上下文(字符的视觉表示、外观顺序、流向):

ASEEQUENCEOFCHARS(ALEF、BET、MEM、NUN、AYIN、最终PE)显示为:

אבמנעף
因此,您的主要关注点—python中的语言语料库分析—可能会独立于unicode文本元素在表示层上的输出而使用它们。

您是否尝试过在字符串前面使用unicode:a=u'\u2229\u2557\u2510';打印您可能会从中受益,因为您可以理解,实际上并没有像“utf-8字符”这样的东西。您看到的输出包含字符的unicode代码点。您的终端可能无法正确显示它们,但这是另一个问题。看起来您将UTF-8文件错误地解码为cp862。尝试执行
text=text.decode(“utf-8”)
而不是
text=text.decode(“cp862”)
,看看这是否能为您产生正确的结果。@chthonicdaemon,谢谢您的回复。所以我在Linux中的终端遇到了问题,我正在通过代码远程使用Linux和SSH服务器。而且它不会在由脚本生成的Python文件中显示希伯来文字符。你有什么建议可以让它正确显示吗?谢谢大家!@伊沙拉索斯基:有很多事情可能会出问题,最好问一个新问题。