Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/301.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 是否有一个现有的库或api可用于在基于字符的语言中分隔单词?_Python_Api_Unicode_Utf 8_Nlp - Fatal编程技术网

Python 是否有一个现有的库或api可用于在基于字符的语言中分隔单词?

Python 是否有一个现有的库或api可用于在基于字符的语言中分隔单词?,python,api,unicode,utf-8,nlp,Python,Api,Unicode,Utf 8,Nlp,我正在从事一个小的Python项目,该项目涉及使用各种语言编写的大量文本为各种语言创建词典。对于大多数语言来说,这是相对简单的,因为我可以使用单词之间的空格分隔符将段落标记为字典中的单词,但例如,中文在单词之间不使用空格字符。如何将一段中文文本标记为单词 我的搜索发现这是一个有点复杂的问题,所以我想知道是否有现成的解决方案可以在Python或其他地方通过api或任何其他语言来解决这个问题。这一定是一个常见的问题,因为任何针对亚洲语言的搜索引擎都需要克服这个问题才能提供相关的结果 我尝试使用谷歌搜

我正在从事一个小的Python项目,该项目涉及使用各种语言编写的大量文本为各种语言创建词典。对于大多数语言来说,这是相对简单的,因为我可以使用单词之间的空格分隔符将段落标记为字典中的单词,但例如,中文在单词之间不使用空格字符。如何将一段中文文本标记为单词

我的搜索发现这是一个有点复杂的问题,所以我想知道是否有现成的解决方案可以在Python或其他地方通过api或任何其他语言来解决这个问题。这一定是一个常见的问题,因为任何针对亚洲语言的搜索引擎都需要克服这个问题才能提供相关的结果


我尝试使用谷歌搜索,但我甚至不确定这种标记化被称为什么,所以我的结果没有找到任何东西。也许只要朝正确的方向轻推一下就会有所帮助。

语言标记化是自然语言处理(NLP)的一个关键方面。这对于大公司和大学来说是一个巨大的话题,也是众多博士论文的主题

我刚刚提交了对您的问题的编辑,以添加“nlp”标记。我建议您在“关于”页面查看“nlp”标签。您将找到指向诸如的站点的链接,其中包括基于Python的标记器


你也可以在谷歌上搜索“语言标记化”和NLP等术语

可能的副本也请检查该问题的删除答案中提供的链接:@Joel:Hm我不确定。引用:“我想把一个句子分成一系列单词。”你是对的,尽管OP自己的解决方案并不能真正解决他所问的具体问题。他只是用“字”和“字”作为同义词,这似乎不适用于汉语。不管怎么说,那里的答案可能很有趣。考虑到我不会说一种语言(等一下,拉丁语理论上应该算!),这是猜测,但这似乎太模糊了,无法用硬性规定来解决。我假设某个NLP库是正常的。或者简单的解决方案是用后缀树形式的字典——这应该很容易,尽管不知道它在什么情况下会有多好practice@Junuxx:在问题中:“每个中文单词/字符都有相应的unicode,并在屏幕上作为单独的单词/字符显示。”,“因此,显然Python在区分单词/字符边界方面没有问题。我只需要在列表中列出这些单词/字符。”。如果你看看OP自己的答案,就会更清楚,这建议只在字符串上使用
list