Python 使用机器学习将PDF转换为XML_Python_Machine Learning_Deep Learning_Computer Vision_Data Science

Python 使用机器学习将PDF转换为XML

python machine-learning deep-learning computer-vision

Python 使用机器学习将PDF转换为XML,python,machine-learning,deep-learning,computer-vision,data-science,Python,Machine Learning,Deep Learning,Computer Vision,Data Science,我得到了一份将PDF转换为XML的工作。在XML中，我必须显示一些PDF格式的值。我被要求使用Python-3和机器学习来提取值关于如何创建从PFD提取信息的ML模型的任何建议或想法具体问题：如果我的pdf有值，例如： emp id:10000 姓名：raam 然后我必须从PDF中提取empid和名称，并将它们显示到XML文档中注意：该模型应该能够处理数千个PDF并将其转换为XML文档谢谢大家。有一个API可用于将PDF转换为Excel.xlsx、XML或CSV:。让我们知道这是否对

我得到了一份将PDF转换为XML的工作。在XML中，我必须显示一些PDF格式的值。我被要求使用Python-3和机器学习来提取值

关于如何创建从PFD提取信息的ML模型的任何建议或想法

具体问题：如果我的pdf有值，例如：

emp id:10000 姓名：raam

然后我必须从PDF中提取empid和名称，并将它们显示到XML文档中

注意：该模型应该能够处理数千个PDF并将其转换为XML文档

谢谢大家。

有一个API可用于将PDF转换为Excel.xlsx、XML或CSV:。让我们知道这是否对您有帮助。

请参观：您好-有很多您需要澄清的地方-首先，PDF扫描的文档图像是基于文本的还是基于文本的？如果是基于文本的，您需要开始解析pdf，如果您被要求提供ML解决方案，我假设它有图像。在这里，您首先需要使用opencv或pytesseract之类的工具，通过OCR识别文档中感兴趣的字符和ROI区域，然后使用FUNSD之类的预注释数据集，训练系统识别文档中的问题和答案或类似实体。«我被要求使用Python-3和机器学习来提取值。机器学习是一个宽泛的术语。使用ML从PDF中提取值的具体含义是什么？