Python 使用机器学习将PDF转换为XML
我得到了一份将PDF转换为XML的工作。在XML中,我必须显示一些PDF格式的值。 我被要求使用Python-3和机器学习来提取值 关于如何创建从PFD提取信息的ML模型的任何建议或想法 具体问题: 如果我的pdf有值,例如: emp id:10000 姓名:raam 然后我必须从PDF中提取empid和名称,并将它们显示到XML文档中 注意:该模型应该能够处理数千个PDF并将其转换为XML文档Python 使用机器学习将PDF转换为XML,python,machine-learning,deep-learning,computer-vision,data-science,Python,Machine Learning,Deep Learning,Computer Vision,Data Science,我得到了一份将PDF转换为XML的工作。在XML中,我必须显示一些PDF格式的值。 我被要求使用Python-3和机器学习来提取值 关于如何创建从PFD提取信息的ML模型的任何建议或想法 具体问题: 如果我的pdf有值,例如: emp id:10000 姓名:raam 然后我必须从PDF中提取empid和名称,并将它们显示到XML文档中 注意:该模型应该能够处理数千个PDF并将其转换为XML文档 谢谢大家。有一个API可用于将PDF转换为Excel.xlsx、XML或CSV:。让我们知道这是否对
谢谢大家。有一个API可用于将PDF转换为Excel.xlsx、XML或CSV:。让我们知道这是否对您有帮助。请参观:您好-有很多您需要澄清的地方-首先,PDF扫描的文档图像是基于文本的还是基于文本的?如果是基于文本的,您需要开始解析pdf,如果您被要求提供ML解决方案,我假设它有图像。在这里,您首先需要使用opencv或pytesseract之类的工具,通过OCR识别文档中感兴趣的字符和ROI区域,然后使用FUNSD之类的预注释数据集,训练系统识别文档中的问题和答案或类似实体。«我被要求使用Python-3和机器学习来提取值。机器学习是一个宽泛的术语。使用ML从PDF中提取值的具体含义是什么?