Python 是否有一种方法可以使用ML从合同中提取信息，包括合同文件和目标字符串作为输入和输出？_Python_Machine Learning_Nlp_Information Extraction

Python 是否有一种方法可以使用ML从合同中提取信息，包括合同文件和目标字符串作为输入和输出？

python machine-learning nlp

Python 是否有一种方法可以使用ML从合同中提取信息，包括合同文件和目标字符串作为输入和输出？,python,machine-learning,nlp,information-extraction,Python,Machine Learning,Nlp,Information Extraction,我正在做一个与工作相关的项目，我应该研究是否可以从合同中自动提取某些领域的信息（例如合同当事人、开始和结束日期）。我对处理文本数据很陌生，我想知道是否可以使用ML提取这些信息片段，将整个合同作为输入，将信息作为输出，而不标记或注释整个文本我理解提取应针对每个目标字段单独运行谢谢第一个问题-合同是如何存储的？它们是PDF还是基于文本的如果它们是PDF，那么有一些包可以从PDF中提取文本（例如pdftotext）第二个问题-您要查找的数据是否在每个文档中的相同位置如果是这样，您可以从合

我正在做一个与工作相关的项目，我应该研究是否可以从合同中自动提取某些领域的信息（例如合同当事人、开始和结束日期）。我对处理文本数据很陌生，我想知道是否可以使用ML提取这些信息片段，将整个合同作为输入，将信息作为输出，而不标记或注释整个文本

我理解提取应针对每个目标字段单独运行

谢谢

第一个问题-合同是如何存储的？它们是PDF还是基于文本的

如果它们是PDF，那么有一些包可以从PDF中提取文本（例如pdftotext）

第二个问题-您要查找的数据是否在每个文档中的相同位置

如果是这样，您可以从合同中的已知位置提取您要查找的信息（如开始日期和结束日期）。如果没有，你将不得不做一些更复杂的事情。例如，如果每个合同中使用相同的术语，您可能需要对“开始日期”进行文本搜索。如果不同的合同使用不同的术语，您可能需要努力从文本中提取含义，这可以使用一些复杂的自然语言处理（NLP）来完成

如果没有更多关于您的问题的知识或具体的例子，很难说您的最佳选择是什么。

如果您可以使用商业工具-搜索“合同数据提取法律技术”。滚动你自己的将是相当复杂的。不幸的是不能使用这些，即使它们看起来很方便。现在的范围更像是研究我们自己如何做到这一点。谢谢你的回答杰夫。1.是的，合同是PDF格式的。2.不，文档的结构可能会有很大的变化。似乎意义的提取才是出路。