Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/307.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 是否有一种方法可以使用ML从合同中提取信息,包括合同文件和目标字符串作为输入和输出?_Python_Machine Learning_Nlp_Information Extraction - Fatal编程技术网

Python 是否有一种方法可以使用ML从合同中提取信息,包括合同文件和目标字符串作为输入和输出?

Python 是否有一种方法可以使用ML从合同中提取信息,包括合同文件和目标字符串作为输入和输出?,python,machine-learning,nlp,information-extraction,Python,Machine Learning,Nlp,Information Extraction,我正在做一个与工作相关的项目,我应该研究是否可以从合同中自动提取某些领域的信息(例如合同当事人、开始和结束日期)。 我对处理文本数据很陌生,我想知道是否可以使用ML提取这些信息片段,将整个合同作为输入,将信息作为输出,而不标记或注释整个文本 我理解提取应针对每个目标字段单独运行 谢谢 第一个问题-合同是如何存储的?它们是PDF还是基于文本的 如果它们是PDF,那么有一些包可以从PDF中提取文本(例如pdftotext) 第二个问题-您要查找的数据是否在每个文档中的相同位置 如果是这样,您可以从合

我正在做一个与工作相关的项目,我应该研究是否可以从合同中自动提取某些领域的信息(例如合同当事人、开始和结束日期)。 我对处理文本数据很陌生,我想知道是否可以使用ML提取这些信息片段,将整个合同作为输入,将信息作为输出,而不标记或注释整个文本

我理解提取应针对每个目标字段单独运行


谢谢

第一个问题-合同是如何存储的?它们是PDF还是基于文本的

如果它们是PDF,那么有一些包可以从PDF中提取文本(例如pdftotext)

第二个问题-您要查找的数据是否在每个文档中的相同位置

如果是这样,您可以从合同中的已知位置提取您要查找的信息(如开始日期和结束日期)。如果没有,你将不得不做一些更复杂的事情。例如,如果每个合同中使用相同的术语,您可能需要对“开始日期”进行文本搜索。如果不同的合同使用不同的术语,您可能需要努力从文本中提取含义,这可以使用一些复杂的自然语言处理(NLP)来完成


如果没有更多关于您的问题的知识或具体的例子,很难说您的最佳选择是什么。

如果您可以使用商业工具-搜索“合同数据提取法律技术”。滚动你自己的将是相当复杂的。不幸的是不能使用这些,即使它们看起来很方便。现在的范围更像是研究我们自己如何做到这一点。谢谢你的回答杰夫。1.是的,合同是PDF格式的。2.不,文档的结构可能会有很大的变化。似乎意义的提取才是出路。