Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词？_Python_R_Text_Nlp

Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词？

python r text nlp

Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词？,python,r,text,nlp,Python,R,Text,Nlp,我有一个由两个或更多字典英语单词组成的字符串，但是单词之间的空格丢失了。如何在R或Python中分隔单词示例： Input_string = "thequickbrownfox" Desired_output_string = "the quick brown fox" 有没有一种算法可以进行这样的文本处理？这不是一个线性问题。在其他困难中，一些字符序列可以被分成多个合理的字串但是，该方法使用递归例程非常简单。通读你的词典（法律词汇词典），找出你能从给定句子开头组成的每个单词。反复读这些

我有一个由两个或更多字典英语单词组成的字符串，但是单词之间的空格丢失了。如何在R或Python中分隔单词

示例：

Input_string = "thequickbrownfox"

Desired_output_string = "the quick brown fox"

有没有一种算法可以进行这样的文本处理？

这不是一个线性问题。在其他困难中，一些字符序列可以被分成多个合理的字串

但是，该方法使用递归例程非常简单。通读你的词典（法律词汇词典），找出你能从给定句子开头组成的每个单词。反复读这些单词；对于每个句子，分析句子的其余部分。如果成功，返回正确分隔的输入（当前单词+剩余部分的解析）

//解析字符序列
//返回合法分词的列表
//假设一个单词列表，词典，作为一个全局
sep_字符串（str语句）
结果=
发送大小=句子长度
对于1中的单词大小：已发送大小
单词=句子[0:word\u size-1]//下一个潜在单词
词汇中的if词
//找到一个合法的词；删除它并解析它
//序列的其余部分
sep\u rest=sep\u字符串（句子[单词大小：发送大小]）
//sep_rest是一个用于
//序列的其余部分
对于sep_rest中的每个溶液
将（word+“”+解决方案）追加到结果
返回结果

这不是一个线性问题。在其他困难中，一些字符序列可以被分成多个合理的字串

//解析字符序列
//返回合法分词的列表
//假设一个单词列表，词典，作为一个全局
sep_字符串（str语句）
结果=
发送大小=句子长度
对于1中的单词大小：已发送大小
单词=句子[0:word\u size-1]//下一个潜在单词
词汇中的if词
//找到一个合法的词；删除它并解析它
//序列的其余部分
sep\u rest=sep\u字符串（句子[单词大小：发送大小]）
//sep_rest是一个用于
//序列的其余部分
对于sep_rest中的每个溶液
将（word+“”+解决方案）追加到结果
返回结果

祝你好运。我相信这是一个离题的话题，但您可能会更幸运地询问可以解决类似问题的方法（而不是包）。。。这个问题在或（不太可能）更合适。公平地说，方法是好的，没有什么是完美的。。。例如，以字符串“ilovetherapists”为例；那会是

“我爱治疗师”

还是

“我爱强奸犯”

。当然可以。选择越多越好。但更重要的是我们不能把它分开祝你好运。我相信这是一个离题的话题，但您可能会更幸运地询问可以解决类似问题的方法（而不是包）。。。这个问题在或（不太可能）更合适。公平地说，方法是好的，没有什么是完美的。。。例如，以字符串“ilovetherapists”为例；那会是

“我爱治疗师”

还是

“我爱强奸犯”

。当然可以。选择越多越好。但更重要的是我们不能分开它

// Parse a character sequence
//   return a list of legal word separations
// Assume a word list, lexicon, as a global
sep_string(str sentence)
    result = <empty list>
    sent_size = length of sentence

    for word_size in 1:sent_size
        word = sentence[0:word_size-1]  // next potential word

        if word in lexicon
            // Found a legal word; remove it and parse
            //   the rest of the sequence
            sep_rest = sep_string(sentence[word_size:sent_size])
            // sep_rest is a list of parsings for
            //   the rest of the sequence

            for each solution in sep_rest
                append (word + " " + solution) to result

    return result