Nlp 匹配两组文件以查找它们之间最接近的相关性

Nlp 匹配两组文件以查找它们之间最接近的相关性,nlp,data-science,tf-idf,Nlp,Data Science,Tf Idf,我有两组文件A和B,两组都有大约10000个文件。我想找到集合B中与集合A中每个文件最匹配的文件 实际上,集合A和集合B中的文件实际上是目录,但为了简单起见,我将它们称为文件 目前,我已经编写了一些解析器来从这两个集合中提取重要属性,并将它们存储在数据库中,将其作为这两种类型中每个文件的特征 现在我想找到集合A中的文件与集合B中的文件最接近的匹配项 请告诉我您对解决此问题的最佳方法的建议。您的文件是什么样的?你如何定义这种“匹配”关系?这些文件是技术文件,所以很多词汇都是特定领域的,即网络。因此

我有两组文件A和B,两组都有大约10000个文件。我想找到集合B中与集合A中每个文件最匹配的文件

实际上,集合A和集合B中的文件实际上是目录,但为了简单起见,我将它们称为文件

目前,我已经编写了一些解析器来从这两个集合中提取重要属性,并将它们存储在数据库中,将其作为这两种类型中每个文件的特征

现在我想找到集合A中的文件与集合B中的文件最接近的匹配项


请告诉我您对解决此问题的最佳方法的建议。

您的文件是什么样的?你如何定义这种“匹配”关系?这些文件是技术文件,所以很多词汇都是特定领域的,即网络。因此,一组文件是用户生成的,另一组文件是系统生成的,例如日志文件。匹配关系是我的问题,定义匹配关系的最佳方法是什么。tf idf分数和简单的单词匹配是我想实现的最初方法。我在看是否有更好的方法。