在python中查找字符串中存在的类似文本
我有一个包含文本的txt文件 目录 前言1 第1章:标记化文本和WordNet基础7 将文本标记为句子8 把句子标记成单词10 使用正则表达式标记句子12 如果我拥有的字符串是:在python中查找字符串中存在的类似文本,python,string,Python,String,我有一个包含文本的txt文件 目录 前言1 第1章:标记化文本和WordNet基础7 将文本标记为句子8 把句子标记成单词10 使用正则表达式标记句子12 如果我拥有的字符串是: input = "Tokenzing sentence using expressions" 我曾想过用开头和结尾的词来提取句子,但有很多重复 那么,获得输出的最佳方式是什么 使用正则表达式标记句子 如果您准备对章节标题进行预处理,消除页码和其他内容,请执行以下操作: import difflib
input = "Tokenzing sentence using expressions"
我曾想过用开头和结尾的词来提取句子,但有很多重复
那么,获得输出的最佳方式是什么
使用正则表达式标记句子
如果您准备对章节标题进行预处理,消除页码和其他内容,请执行以下操作:
import difflib
contents = ["Tokenizing Text and WordNet Basics",
"Tokenizing text into sentences",
"Tokenizing sentences into words",
"Tokenizing sentences using regular expressions"]
input = "Tokenzing sentence using expressions"
print (difflib.get_close_matches(input, contents, n=1))
将为您提供以下输出:
['Tokenizing sentences using regular expressions']
您确定要将标记化与标记化匹配吗?或者这只是个错误?是的。我想找到最相似的文本。