Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/webpack/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词?_Python_R_Text_Nlp - Fatal编程技术网

Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词?

Python 如何将没有空格/分隔符的字符串/字母表拆分为字典中的单词?,python,r,text,nlp,Python,R,Text,Nlp,我有一个由两个或更多字典英语单词组成的字符串,但是单词之间的空格丢失了。如何在R或Python中分隔单词 示例: Input_string = "thequickbrownfox" Desired_output_string = "the quick brown fox" 有没有一种算法可以进行这样的文本处理?这不是一个线性问题。在其他困难中,一些字符序列可以被分成多个合理的字串 但是,该方法使用递归例程非常简单。通读你的词典(法律词汇词典),找出你能从给定句子开头组成的每个单词。反复读这些

我有一个由两个或更多字典英语单词组成的字符串,但是单词之间的空格丢失了。如何在R或Python中分隔单词

示例:

Input_string = "thequickbrownfox"

Desired_output_string = "the quick brown fox"

有没有一种算法可以进行这样的文本处理?

这不是一个线性问题。在其他困难中,一些字符序列可以被分成多个合理的字串

但是,该方法使用递归例程非常简单。通读你的词典(法律词汇词典),找出你能从给定句子开头组成的每个单词。反复读这些单词;对于每个句子,分析句子的其余部分。如果成功,返回正确分隔的输入(当前单词+剩余部分的解析)

//解析字符序列
//返回合法分词的列表
//假设一个单词列表,词典,作为一个全局
sep_字符串(str语句)
结果=
发送大小=句子长度
对于1中的单词大小:已发送大小
单词=句子[0:word\u size-1]//下一个潜在单词
词汇中的if词
//找到一个合法的词;删除它并解析它
//序列的其余部分
sep\u rest=sep\u字符串(句子[单词大小:发送大小])
//sep_rest是一个用于
//序列的其余部分
对于sep_rest中的每个溶液
将(word+“”+解决方案)追加到结果
返回结果

这不是一个线性问题。在其他困难中,一些字符序列可以被分成多个合理的字串

但是,该方法使用递归例程非常简单。通读你的词典(法律词汇词典),找出你能从给定句子开头组成的每个单词。反复读这些单词;对于每个句子,分析句子的其余部分。如果成功,返回正确分隔的输入(当前单词+剩余部分的解析)

//解析字符序列
//返回合法分词的列表
//假设一个单词列表,词典,作为一个全局
sep_字符串(str语句)
结果=
发送大小=句子长度
对于1中的单词大小:已发送大小
单词=句子[0:word\u size-1]//下一个潜在单词
词汇中的if词
//找到一个合法的词;删除它并解析它
//序列的其余部分
sep\u rest=sep\u字符串(句子[单词大小:发送大小])
//sep_rest是一个用于
//序列的其余部分
对于sep_rest中的每个溶液
将(word+“”+解决方案)追加到结果
返回结果

祝你好运。我相信这是一个离题的话题,但您可能会更幸运地询问可以解决类似问题的方法(而不是包)。。。这个问题在或(不太可能)更合适。公平地说,方法是好的,没有什么是完美的。。。例如,以字符串“ilovetherapists”为例;那会是
“我爱治疗师”
还是
“我爱强奸犯”
。当然可以。选择越多越好。但更重要的是我们不能把它分开祝你好运。我相信这是一个离题的话题,但您可能会更幸运地询问可以解决类似问题的方法(而不是包)。。。这个问题在或(不太可能)更合适。公平地说,方法是好的,没有什么是完美的。。。例如,以字符串“ilovetherapists”为例;那会是
“我爱治疗师”
还是
“我爱强奸犯”
。当然可以。选择越多越好。但更重要的是我们不能分开它
// Parse a character sequence
//   return a list of legal word separations
// Assume a word list, lexicon, as a global
sep_string(str sentence)
    result = <empty list>
    sent_size = length of sentence

    for word_size in 1:sent_size
        word = sentence[0:word_size-1]  // next potential word

        if word in lexicon
            // Found a legal word; remove it and parse
            //   the rest of the sequence
            sep_rest = sep_string(sentence[word_size:sent_size])
            // sep_rest is a list of parsings for
            //   the rest of the sequence

            for each solution in sep_rest
                append (word + " " + solution) to result

    return result