在python中查找字符串中存在的类似文本

在python中查找字符串中存在的类似文本,python,string,Python,String,我有一个包含文本的txt文件 目录 前言1 第1章:标记化文本和WordNet基础7 将文本标记为句子8 把句子标记成单词10 使用正则表达式标记句子12 如果我拥有的字符串是: input = "Tokenzing sentence using expressions" 我曾想过用开头和结尾的词来提取句子,但有很多重复 那么,获得输出的最佳方式是什么 使用正则表达式标记句子 如果您准备对章节标题进行预处理,消除页码和其他内容,请执行以下操作: import difflib

我有一个包含文本的txt文件

目录

前言1

第1章:标记化文本和WordNet基础7

将文本标记为句子8

把句子标记成单词10

使用正则表达式标记句子12

如果我拥有的字符串是:

input = "Tokenzing sentence using expressions"
我曾想过用开头和结尾的词来提取句子,但有很多重复

那么,获得输出的最佳方式是什么

使用正则表达式标记句子


如果您准备对章节标题进行预处理,消除页码和其他内容,请执行以下操作:

import difflib
contents = ["Tokenizing Text and WordNet Basics",
            "Tokenizing text into sentences",
            "Tokenizing sentences into words",
            "Tokenizing sentences using regular expressions"]
input = "Tokenzing sentence using expressions"
print (difflib.get_close_matches(input, contents, n=1))
将为您提供以下输出:

['Tokenizing sentences using regular expressions']

您确定要将标记化与标记化匹配吗?或者这只是个错误?是的。我想找到最相似的文本。