Javascript 从PDF和文档中提取文本和元数据_Javascript_Python

Javascript 从PDF和文档中提取文本和元数据

javascript python

Javascript 从PDF和文档中提取文本和元数据,javascript,python,Javascript,Python,我正在做一个抄袭检查作为一个辅助项目。我想知道如何从文档中提取文本和相关元数据的方法，例如粗体文本或大标题我将使用python或javascript，并在每种语言上使用框架我计划支持pdf和ms word文档那么，我如何从文档中提取所需的数据呢？我记得有一个用于读取文档文件中单词的库您可以使用python-docx2txt来提取doc中的单词。您可以在终端中使用它来安装库：pip install docx2txt import docx2txt readText = doc2txt.p

我正在做一个抄袭检查作为一个辅助项目。我想知道如何从文档中提取文本和相关元数据的方法，例如粗体文本或大标题

我将使用python或javascript，并在每种语言上使用框架

我计划支持pdf和ms word文档

那么，我如何从文档中提取所需的数据呢？

我记得有一个用于读取文档文件中单词的库您可以使用python-docx2txt来提取doc中的单词。您可以在终端中使用它来安装库：pip install docx2txt

import docx2txt
readText = doc2txt.process("your_file_name")
print(readText)

不仅如此，如果你想通过使用该程序在word文件中添加一个新段落或新表等编辑，你可以安装python docx库来使用这些功能…关于PDF ermmm，我不在研究范围之内…但我想你可以尝试检查一下，这可能会给你一些想法：D

有几个模块/包可以获取元数据从PDF

***PDF矿工***

PDFMiner是一种用于PDF文档的文本提取工具

纯Python（3.6或更高版本）

使用docx2txt从docx获取元数据

***DOCX2TXT***

python docx是一个用于创建和更新Microsoft Word（.docx）文件的python库

一个纯粹基于python的实用程序，用于从docx文件中提取文本

import docx2txt

# extract text
text = docx2txt.process("file.docx")

谢谢，PythonDocx具有提取标题的功能，我认为它还包含特定于字体的操作。

import docx2txt

# extract text
text = docx2txt.process("file.docx")