Python 如何标记没有空格分隔符的连续单词?
我将Python与nltk结合使用。我需要在没有任何空格的情况下处理一些英文文本,但nltk中的word_标记化函数无法处理此类问题。那么,如何在没有任何空格的情况下标记文本。Python中有任何工具吗?我不知道有这样的工具,但问题的解决取决于语言 对于土耳其语,您可以逐个字母扫描输入文本,并将字母累积成一个单词。当您确定累积的单词构成字典中的有效单词时,可以将其另存为单独的标记,擦除用于累积新词的缓冲区,然后继续此过程 你可以在英语中尝试这个方法,但我想你可能会发现一个单词的结尾可能是某个词典单词的开头,这可能会给你带来一些问题。也许这个方法会有所帮助?不确定。。。但可能比手工操作要好Python 如何标记没有空格分隔符的连续单词?,python,nltk,tokenize,Python,Nltk,Tokenize,我将Python与nltk结合使用。我需要在没有任何空格的情况下处理一些英文文本,但nltk中的word_标记化函数无法处理此类问题。那么,如何在没有任何空格的情况下标记文本。Python中有任何工具吗?我不知道有这样的工具,但问题的解决取决于语言 对于土耳其语,您可以逐个字母扫描输入文本,并将字母累积成一个单词。当您确定累积的单词构成字典中的有效单词时,可以将其另存为单独的标记,擦除用于累积新词的缓冲区,然后继续此过程 你可以在英语中尝试这个方法,但我想你可能会发现一个单词的结尾可能是某个词典
对另一个SO问题(以及另一个高投票率的答案)的回答可能会有所帮助:为什么没有空格?域是什么?如何识别单词?除非你逐字扫描文本并测试所有可能的连续字符组合,否则必须有一个分隔符。这是一个有趣的算法问题!我不知道为什么会被否决,我也看到了同样的问题。希望它能帮你维特比的好运吗?