Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/335.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 从MS Word文档构建数据库的最佳方法是什么?_Python_Database_Algorithm - Fatal编程技术网

Python 从MS Word文档构建数据库的最佳方法是什么?

Python 从MS Word文档构建数据库的最佳方法是什么?,python,database,algorithm,Python,Database,Algorithm,请就如何解决此问题向我提供建议: 我在MS Word中的文档中有一个连续的元数据列表。其基本思想是创建一个Python算法来迭代信息,从数据库中检索进程的名称(当进程成为队列时) 元数据示例: 过程:过程步行者(1965) 准确参考:沃克工艺设备有限公司v。食品机械公司 链接: 程序类型:美国第七巡回上诉法院的调卷。 缔约方:沃克工艺设备有限公司 扇区:系统是 开始日期:1965年10月12日至13日阿尔盖达斯 摘要:食品机械公司已启动一项程序,通过使用通过欺诈获得的专利来阻止或减缓竞争对手的进

请就如何解决此问题向我提供建议:

我在MS Word中的文档中有一个连续的元数据列表。其基本思想是创建一个Python算法来迭代信息,从数据库中检索进程的名称(当进程成为队列时)

元数据示例:

过程:过程步行者(1965)
准确参考:沃克工艺设备有限公司v。食品机械公司

链接:

程序类型:美国第七巡回上诉法院的调卷。 缔约方:沃克工艺设备有限公司

扇区:系统是

开始日期:1965年10月12日至13日阿尔盖达斯
摘要:食品机械公司已启动一项程序,通过使用通过欺诈获得的专利来阻止或减缓竞争对手的进入。本案涉及一项用于污水处理系统曝气设备的“膝动摆动扩散器”专利,问题是“维护和执行在专利局通过欺诈获得的专利”是否可以作为反垄断处罚的依据。
进化过程报告:请愿人,在答复中

重要性:a)第一个案例建立了对争议诊断的分析

大约有200页包含上述信息


我想用Python实现一个算法,能够打破这个信息序列,并尝试将其存储在web数据库(我正在寻找的一个开源应用程序)中,以便进行免费咨询。

查看将文档转换为纯文本,然后grep和sed转换成一种可以通过管道传输到脚本中的格式。

Word的最新版本允许您以XML格式保存文档。这可以通过显式地“另存为”并选择XML来完成,也可以解压.docx文件并解析其XML。XML格式根据Word:或的版本在线记录


任何更强大的功能(例如需要操纵文档)都需要与.NET(或.Words)接口。

它们是否总是以相同的顺序具有完全相同的部分?“过程:…”总是第一行吗?@S.Lott.:我认为这是一个非常合理的问题。这是一种数据格式,我如何将数据复制到数据库中。它是什么版本的Word?如果是2007(.docx),那么你可以看看@Orbling,这个问题不够精确,无法回答。@Thorbjørn Ravn Andersen:因此,我要求澄清,而不是笨手笨脚地回答。;-)