Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/329.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 使用机器学习将PDF转换为XML_Python_Machine Learning_Deep Learning_Computer Vision_Data Science - Fatal编程技术网

Python 使用机器学习将PDF转换为XML

Python 使用机器学习将PDF转换为XML,python,machine-learning,deep-learning,computer-vision,data-science,Python,Machine Learning,Deep Learning,Computer Vision,Data Science,我得到了一份将PDF转换为XML的工作。在XML中,我必须显示一些PDF格式的值。 我被要求使用Python-3和机器学习来提取值 关于如何创建从PFD提取信息的ML模型的任何建议或想法 具体问题: 如果我的pdf有值,例如: emp id:10000 姓名:raam 然后我必须从PDF中提取empid和名称,并将它们显示到XML文档中 注意:该模型应该能够处理数千个PDF并将其转换为XML文档 谢谢大家。有一个API可用于将PDF转换为Excel.xlsx、XML或CSV:。让我们知道这是否对

我得到了一份将PDF转换为XML的工作。在XML中,我必须显示一些PDF格式的值。 我被要求使用Python-3和机器学习来提取值

关于如何创建从PFD提取信息的ML模型的任何建议或想法

具体问题: 如果我的pdf有值,例如:

emp id:10000 姓名:raam

然后我必须从PDF中提取empid和名称,并将它们显示到XML文档中

注意:该模型应该能够处理数千个PDF并将其转换为XML文档


谢谢大家。

有一个API可用于将PDF转换为Excel.xlsx、XML或CSV:。让我们知道这是否对您有帮助。

请参观:您好-有很多您需要澄清的地方-首先,PDF扫描的文档图像是基于文本的还是基于文本的?如果是基于文本的,您需要开始解析pdf,如果您被要求提供ML解决方案,我假设它有图像。在这里,您首先需要使用opencv或pytesseract之类的工具,通过OCR识别文档中感兴趣的字符和ROI区域,然后使用FUNSD之类的预注释数据集,训练系统识别文档中的问题和答案或类似实体。«我被要求使用Python-3和机器学习来提取值。机器学习是一个宽泛的术语。使用ML从PDF中提取值的具体含义是什么?