Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/mysql/67.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何标记没有空格分隔符的连续单词?_Python_Nltk_Tokenize - Fatal编程技术网

Python 如何标记没有空格分隔符的连续单词?

Python 如何标记没有空格分隔符的连续单词?,python,nltk,tokenize,Python,Nltk,Tokenize,我将Python与nltk结合使用。我需要在没有任何空格的情况下处理一些英文文本,但nltk中的word_标记化函数无法处理此类问题。那么,如何在没有任何空格的情况下标记文本。Python中有任何工具吗?我不知道有这样的工具,但问题的解决取决于语言 对于土耳其语,您可以逐个字母扫描输入文本,并将字母累积成一个单词。当您确定累积的单词构成字典中的有效单词时,可以将其另存为单独的标记,擦除用于累积新词的缓冲区,然后继续此过程 你可以在英语中尝试这个方法,但我想你可能会发现一个单词的结尾可能是某个词典

我将Python与nltk结合使用。我需要在没有任何空格的情况下处理一些英文文本,但nltk中的word_标记化函数无法处理此类问题。那么,如何在没有任何空格的情况下标记文本。Python中有任何工具吗?

我不知道有这样的工具,但问题的解决取决于语言

对于土耳其语,您可以逐个字母扫描输入文本,并将字母累积成一个单词。当您确定累积的单词构成字典中的有效单词时,可以将其另存为单独的标记,擦除用于累积新词的缓冲区,然后继续此过程

你可以在英语中尝试这个方法,但我想你可能会发现一个单词的结尾可能是某个词典单词的开头,这可能会给你带来一些问题。

也许这个方法会有所帮助?不确定。。。但可能比手工操作要好


对另一个SO问题(以及另一个高投票率的答案)的回答可能会有所帮助:

为什么没有空格?域是什么?如何识别单词?除非你逐字扫描文本并测试所有可能的连续字符组合,否则必须有一个分隔符。这是一个有趣的算法问题!我不知道为什么会被否决,我也看到了同样的问题。希望它能帮你维特比的好运吗?