Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/285.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Javascript 从PDF和文档中提取文本和元数据_Javascript_Python - Fatal编程技术网

Javascript 从PDF和文档中提取文本和元数据

Javascript 从PDF和文档中提取文本和元数据,javascript,python,Javascript,Python,我正在做一个抄袭检查作为一个辅助项目。 我想知道如何从文档中提取文本和相关元数据的方法,例如粗体文本或大标题 我将使用python或javascript,并在每种语言上使用框架 我计划支持pdf和ms word文档 那么,我如何从文档中提取所需的数据呢?我记得有一个用于读取文档文件中单词的库 您可以使用python-docx2txt来提取doc中的单词。您可以在终端中使用它来安装库:pip install docx2txt import docx2txt readText = doc2txt.p

我正在做一个抄袭检查作为一个辅助项目。 我想知道如何从文档中提取文本和相关元数据的方法,例如粗体文本或大标题

我将使用python或javascript,并在每种语言上使用框架

我计划支持pdf和ms word文档


那么,我如何从文档中提取所需的数据呢?

我记得有一个用于读取文档文件中单词的库 您可以使用python-docx2txt来提取doc中的单词。您可以在终端中使用它来安装库:pip install docx2txt

import docx2txt
readText = doc2txt.process("your_file_name")
print(readText)

不仅如此,如果你想通过使用该程序在word文件中添加一个新段落或新表等编辑,你可以安装python docx库来使用这些功能…关于PDF ermmm,我不在研究范围之内…但我想你可以尝试检查一下,这可能会给你一些想法:D

有几个模块/包可以获取元数据从PDF

***PDF矿工***

  • PDFMiner是一种用于PDF文档的文本提取工具

  • 纯Python(3.6或更高版本)

  • 使用docx2txt从docx获取元数据

    ***DOCX2TXT***

  • python docx是一个用于创建和更新Microsoft Word(.docx)文件的python库

  • 一个纯粹基于python的实用程序,用于从docx文件中提取文本

    import docx2txt
    
    # extract text
    text = docx2txt.process("file.docx")
    

  • 谢谢,PythonDocx具有提取标题的功能,我认为它还包含特定于字体的操作。
    import docx2txt
    
    # extract text
    text = docx2txt.process("file.docx")