Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词?
我有一个由两个或更多字典英语单词组成的字符串,但是单词之间的空格丢失了。如何在R或Python中分隔单词 示例:Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词?,python,r,text,nlp,Python,R,Text,Nlp,我有一个由两个或更多字典英语单词组成的字符串,但是单词之间的空格丢失了。如何在R或Python中分隔单词 示例: Input_string = "thequickbrownfox" Desired_output_string = "the quick brown fox" 有没有一种算法可以进行这样的文本处理?这不是一个线性问题。在其他困难中,一些字符序列可以被分成多个合理的字串 但是,该方法使用递归例程非常简单。通读你的词典(法律词汇词典),找出你能从给定句子开头组成的每个单词。反复读这些
Input_string = "thequickbrownfox"
Desired_output_string = "the quick brown fox"
有没有一种算法可以进行这样的文本处理?这不是一个线性问题。在其他困难中,一些字符序列可以被分成多个合理的字串 但是,该方法使用递归例程非常简单。通读你的词典(法律词汇词典),找出你能从给定句子开头组成的每个单词。反复读这些单词;对于每个句子,分析句子的其余部分。如果成功,返回正确分隔的输入(当前单词+剩余部分的解析)
//解析字符序列
//返回合法分词的列表
//假设一个单词列表,词典,作为一个全局
sep_字符串(str语句)
结果=
发送大小=句子长度
对于1中的单词大小:已发送大小
单词=句子[0:word\u size-1]//下一个潜在单词
词汇中的if词
//找到一个合法的词;删除它并解析它
//序列的其余部分
sep\u rest=sep\u字符串(句子[单词大小:发送大小])
//sep_rest是一个用于
//序列的其余部分
对于sep_rest中的每个溶液
将(word+“”+解决方案)追加到结果
返回结果
这不是一个线性问题。在其他困难中,一些字符序列可以被分成多个合理的字串
但是,该方法使用递归例程非常简单。通读你的词典(法律词汇词典),找出你能从给定句子开头组成的每个单词。反复读这些单词;对于每个句子,分析句子的其余部分。如果成功,返回正确分隔的输入(当前单词+剩余部分的解析)
//解析字符序列
//返回合法分词的列表
//假设一个单词列表,词典,作为一个全局
sep_字符串(str语句)
结果=
发送大小=句子长度
对于1中的单词大小:已发送大小
单词=句子[0:word\u size-1]//下一个潜在单词
词汇中的if词
//找到一个合法的词;删除它并解析它
//序列的其余部分
sep\u rest=sep\u字符串(句子[单词大小:发送大小])
//sep_rest是一个用于
//序列的其余部分
对于sep_rest中的每个溶液
将(word+“”+解决方案)追加到结果
返回结果
祝你好运。我相信这是一个离题的话题,但您可能会更幸运地询问可以解决类似问题的方法(而不是包)。。。这个问题在或(不太可能)更合适。公平地说,方法是好的,没有什么是完美的。。。例如,以字符串“ilovetherapists”为例;那会是“我爱治疗师”
还是“我爱强奸犯”
。当然可以。选择越多越好。但更重要的是我们不能把它分开祝你好运。我相信这是一个离题的话题,但您可能会更幸运地询问可以解决类似问题的方法(而不是包)。。。这个问题在或(不太可能)更合适。公平地说,方法是好的,没有什么是完美的。。。例如,以字符串“ilovetherapists”为例;那会是“我爱治疗师”
还是“我爱强奸犯”
。当然可以。选择越多越好。但更重要的是我们不能分开它
// Parse a character sequence
// return a list of legal word separations
// Assume a word list, lexicon, as a global
sep_string(str sentence)
result = <empty list>
sent_size = length of sentence
for word_size in 1:sent_size
word = sentence[0:word_size-1] // next potential word
if word in lexicon
// Found a legal word; remove it and parse
// the rest of the sequence
sep_rest = sep_string(sentence[word_size:sent_size])
// sep_rest is a list of parsings for
// the rest of the sequence
for each solution in sep_rest
append (word + " " + solution) to result
return result