Python 搜索不可靠的作者姓名

Python 搜索不可靠的作者姓名,python,Python,我们扫描了数千份旧文件,并将关键数据输入数据库。其中一个字段是作者姓名 我们需要搜索给定作者的文档,但准确名称可能输入错误,因为在许多文档中,数据都是手写的 我想只搜索姓氏的前几个字母,然后提供一个列表供用户选择。我不知道在现阶段有多少不同的作者,我怀疑这将是数百人而不是数十万人。将有数十万份文件。 有更好的办法吗?SQL数据库能更好地处理它吗 该软件是python,每个文档都有一个作者列表。我认为您可以使用mongodb,在这里您可以将列表字段设置为所有可能的作者姓名。例如,您的手写名称为黑色

我们扫描了数千份旧文件,并将关键数据输入数据库。其中一个字段是作者姓名

我们需要搜索给定作者的文档,但准确名称可能输入错误,因为在许多文档中,数据都是手写的

我想只搜索姓氏的前几个字母,然后提供一个列表供用户选择。我不知道在现阶段有多少不同的作者,我怀疑这将是数百人而不是数十万人。将有数十万份文件。 有更好的办法吗?SQL数据库能更好地处理它吗


该软件是python,每个文档都有一个作者列表。

我认为您可以使用mongodb,在这里您可以将列表字段设置为所有可能的作者姓名。例如,您的手写名称为黑色,无法识别名称中的字母,例如c或e,您可以将源名称设置为黑色,并将其添加到可能的名称列表中。blaek是一个Python Solr库,可访问它,该库构建在blaek之上

Solr是什么的摘录:

Solr是ApacheLucene项目中流行的、快速的开源企业搜索平台。其主要功能包括强大的全文搜索、点击突出显示、分面搜索、动态聚类、数据库集成、丰富文档(如Word、PDF处理)和地理空间搜索。Solr具有高度的可扩展性,提供分布式搜索和索引复制,并支持世界上许多最大互联网站点的搜索和导航功能


它将为您提供搜索文档所需的一切,包括部分点击和任何搜索条件下的潜在匹配。

看看这个链接:这里的regex模块支持模糊匹配:`遵循这些链接,我认为difflib可能会起作用,非常简单,对我的应用程序来说已经足够好了-谢谢,我在以前的公司使用它进行各种标准的匹配,包括部分地址信息。以及它如何处理巨大的数据库容量(例如大约3Gb或更多)?我们使用了大约120GB的数据,发现它的响应速度非常快。