String 如何拆分此类串联字符串:“;这是怎么回事;

String 如何拆分此类串联字符串:“;这是怎么回事;,string,algorithm,tokenize,text-segmentation,String,Algorithm,Tokenize,Text Segmentation,假设我有这样一个字符串: "IgotthistextfromapdfIscraped.HowdoIsplitthis?" 我想制作: "I got this text from a pdf I scraped. How do I split this?" 我该怎么做呢?简短的回答:没有现实的机会 长答覆: 拆分字符串的唯一提示是在字符串中查找有效单词。因此,您需要一本预期语言的词典,它不仅包含词根,还包含所有的词缀(这是正确的语言术语吗?)。然后,您可以尝试查找与字符串中的字符相匹配的这些单

假设我有这样一个字符串:

"IgotthistextfromapdfIscraped.HowdoIsplitthis?"
我想制作:

"I got this text from a pdf I scraped. How do I split this?"

我该怎么做呢?

简短的回答:没有现实的机会

长答覆:


拆分字符串的唯一提示是在字符串中查找有效单词。因此,您需要一本预期语言的词典,它不仅包含词根,还包含所有的词缀(这是正确的语言术语吗?)。然后,您可以尝试查找与字符串中的字符相匹配的这些单词的序列。

结果是调用了此任务,有一种方法可以做到这一点:

>>> from wordsegment import load, segment
>>> load()
>>> segment("IgotthistextfromapdfIscraped.HowdoIsplitthis?")
['i', 'got', 'this', 'text', 'from', 'a', 'pdf', 'i', 'scraped', 'how',
 'do', 'i', 'split', 'this']

... 也许通过一个带有“自动修复”的语法检查器,库可以完成我在这种情况下需要的操作。“WheelofFuture”->“wheel”“off”或“tune”@RobertLozyniak的
函数将其拆分为
[“wheel”,“of”,“fortune”]
。很好,不是吗?