Python 是否有一种方法可以使用ML从合同中提取信息,包括合同文件和目标字符串作为输入和输出?
我正在做一个与工作相关的项目,我应该研究是否可以从合同中自动提取某些领域的信息(例如合同当事人、开始和结束日期)。 我对处理文本数据很陌生,我想知道是否可以使用ML提取这些信息片段,将整个合同作为输入,将信息作为输出,而不标记或注释整个文本 我理解提取应针对每个目标字段单独运行Python 是否有一种方法可以使用ML从合同中提取信息,包括合同文件和目标字符串作为输入和输出?,python,machine-learning,nlp,information-extraction,Python,Machine Learning,Nlp,Information Extraction,我正在做一个与工作相关的项目,我应该研究是否可以从合同中自动提取某些领域的信息(例如合同当事人、开始和结束日期)。 我对处理文本数据很陌生,我想知道是否可以使用ML提取这些信息片段,将整个合同作为输入,将信息作为输出,而不标记或注释整个文本 我理解提取应针对每个目标字段单独运行 谢谢 第一个问题-合同是如何存储的?它们是PDF还是基于文本的 如果它们是PDF,那么有一些包可以从PDF中提取文本(例如pdftotext) 第二个问题-您要查找的数据是否在每个文档中的相同位置 如果是这样,您可以从合
谢谢 第一个问题-合同是如何存储的?它们是PDF还是基于文本的 如果它们是PDF,那么有一些包可以从PDF中提取文本(例如pdftotext) 第二个问题-您要查找的数据是否在每个文档中的相同位置 如果是这样,您可以从合同中的已知位置提取您要查找的信息(如开始日期和结束日期)。如果没有,你将不得不做一些更复杂的事情。例如,如果每个合同中使用相同的术语,您可能需要对“开始日期”进行文本搜索。如果不同的合同使用不同的术语,您可能需要努力从文本中提取含义,这可以使用一些复杂的自然语言处理(NLP)来完成
如果没有更多关于您的问题的知识或具体的例子,很难说您的最佳选择是什么。如果您可以使用商业工具-搜索“合同数据提取法律技术”。滚动你自己的将是相当复杂的。不幸的是不能使用这些,即使它们看起来很方便。现在的范围更像是研究我们自己如何做到这一点。谢谢你的回答杰夫。1.是的,合同是PDF格式的。2.不,文档的结构可能会有很大的变化。似乎意义的提取才是出路。