Javascript 从PDF和文档中提取文本和元数据
我正在做一个抄袭检查作为一个辅助项目。 我想知道如何从文档中提取文本和相关元数据的方法,例如粗体文本或大标题 我将使用python或javascript,并在每种语言上使用框架 我计划支持pdf和ms word文档Javascript 从PDF和文档中提取文本和元数据,javascript,python,Javascript,Python,我正在做一个抄袭检查作为一个辅助项目。 我想知道如何从文档中提取文本和相关元数据的方法,例如粗体文本或大标题 我将使用python或javascript,并在每种语言上使用框架 我计划支持pdf和ms word文档 那么,我如何从文档中提取所需的数据呢?我记得有一个用于读取文档文件中单词的库 您可以使用python-docx2txt来提取doc中的单词。您可以在终端中使用它来安装库:pip install docx2txt import docx2txt readText = doc2txt.p
那么,我如何从文档中提取所需的数据呢?我记得有一个用于读取文档文件中单词的库 您可以使用python-docx2txt来提取doc中的单词。您可以在终端中使用它来安装库:pip install docx2txt
import docx2txt
readText = doc2txt.process("your_file_name")
print(readText)
不仅如此,如果你想通过使用该程序在word文件中添加一个新段落或新表等编辑,你可以安装python docx库来使用这些功能…关于PDF ermmm,我不在研究范围之内…但我想你可以尝试检查一下,这可能会给你一些想法:D有几个模块/包可以获取元数据从PDF ***PDF矿工***
import docx2txt
# extract text
text = docx2txt.process("file.docx")
谢谢,PythonDocx具有提取标题的功能,我认为它还包含特定于字体的操作。
import docx2txt
# extract text
text = docx2txt.process("file.docx")