Python中的希伯来文文本_Python

Python中的希伯来文文本

python

Python中的希伯来文文本,python,Python,我有一个希伯来文文本文件，我想用Python 2.7将其标记化。但在编码和解码方面总是存在问题。实际上，我需要对它进行标记，以构建一个BagOfWords（）功能（例如，获取所有文本中出现超过100个的所有单词）因此，结果是列出了最常用的希伯来语单词我试图解码文本： text = text.decode("cp862") 但输出结果如下所示： \u2229\u2557\u2510....... 我想要这个文件作为希伯来语单词列表，而不是ascii或utf-8字符我感谢你的帮助谢谢如果

我有一个希伯来文文本文件，我想用Python 2.7将其标记化。但在编码和解码方面总是存在问题。实际上，我需要对它进行标记，以构建一个BagOfWords（）
功能（例如，获取所有文本中出现超过100个的所有单词）

因此，结果是列出了最常用的希伯来语单词

我试图解码文本：

text = text.decode("cp862")

但输出结果如下所示：

\u2229\u2557\u2510.......

我想要这个文件作为希伯来语单词列表，而不是ascii或utf-8字符

我感谢你的帮助

谢谢

如果您的源文本确实包含希伯来文文本，则基于代码页的字符表示转换为通用UNICODE将允许您构建语言语料库分析，内容的表示与内容本身无关，但取决于UI环境

例如，可以编写和显示希伯来文文本，因为小部件可以正确处理适当的上下文（字符的视觉表示、外观顺序、流向）：

ASEEQUENCEOFCHARS（ALEF、BET、MEM、NUN、AYIN、最终PE）显示为：

אבמנעף

因此，您的主要关注点—python中的语言语料库分析—可能会独立于unicode文本元素在表示层上的输出而使用它们。

您是否尝试过在字符串前面使用unicode:a=u'\u2229\u2557\u2510'；打印您可能会从中受益，因为您可以理解，实际上并没有像“utf-8字符”这样的东西。您看到的输出包含字符的unicode代码点。您的终端可能无法正确显示它们，但这是另一个问题。看起来您将UTF-8文件错误地解码为cp862。尝试执行

text=text.decode（“utf-8”）

而不是

text=text.decode（“cp862”）

，看看这是否能为您产生正确的结果。@chthonicdaemon，谢谢您的回复。所以我在Linux中的终端遇到了问题，我正在通过代码远程使用Linux和SSH服务器。而且它不会在由脚本生成的Python文件中显示希伯来文字符。你有什么建议可以让它正确显示吗？谢谢大家!@伊沙拉索斯基：有很多事情可能会出问题，最好问一个新问题。