Javascript 如何从PDF中提取文本?

Javascript 如何从PDF中提取文本?,javascript,node.js,pdf,Javascript,Node.js,Pdf,我正在用NodeJS创建一个React应用程序,它需要从用户上传的PDF中获取一些文本 我已经尝试过使用:pdf parse、pdf2json、pdf.js和react pdf js。该文件应由用户选择,所有这些库都使用路径访问该文件。我该怎么办? PS1:我正在使用输入type='file'按钮来获取文件 代码必须同时适用于NodeJS和Web浏览器您没有上传任何代码片段,因此我的答案是根据这个场景 您可以看到这个示例,这是“如何使用pdf.js”的完美示例 这是git上的代码 但是我认为

我正在用NodeJS创建一个React应用程序,它需要从用户上传的PDF中获取一些文本

我已经尝试过使用:pdf parse、pdf2json、pdf.js和react pdf js。该文件应由用户选择,所有这些库都使用路径访问该文件。我该怎么办? PS1:我正在使用输入type='file'按钮来获取文件


代码必须同时适用于NodeJS和Web浏览器

您没有上传任何代码片段,因此我的答案是根据这个场景

您可以看到这个示例,这是“如何使用
pdf.js
”的完美示例

这是git上的代码

但是我认为你必须根据你的要求做一些改变


享受..

您没有上传任何代码片段,所以我的答案是根据这个场景

您可以看到这个示例,这是“如何使用
pdf.js
”的完美示例

这是git上的代码

但是我认为你必须根据你的要求做一些改变


享受……

我在回答我自己的问题。首先,我创建一个常规的html输入

<input type='file'/>
文件
没有路径,PDF.JS使用该路径获取真实文件。 然后我使用
FileReader
将文件转换为一个位数组(我猜):

然后我们在
文件阅读器上设置一个函数。onload
可以找到该函数

最后,我们这样做:

fileReader.readAsArrayBuffer(file);
重要提示:
pdf.pdfInfo
必须在新的pdf.JS版本中替换为
pdf

谢谢你的帮助

额外提示:要使用
pdfjsLib
作为React中的PDFJS,我在
index.html
文件中这样做:

window.PDFJS = pdfjsLib

我在回答我自己的问题。首先,我创建一个常规的html输入

<input type='file'/>
文件
没有路径,PDF.JS使用该路径获取真实文件。 然后我使用
FileReader
将文件转换为一个位数组(我猜):

然后我们在
文件阅读器上设置一个函数。onload
可以找到该函数

最后,我们这样做:

fileReader.readAsArrayBuffer(file);
重要提示:
pdf.pdfInfo
必须在新的pdf.JS版本中替换为
pdf

谢谢你的帮助

额外提示:要使用
pdfjsLib
作为React中的PDFJS,我在
index.html
文件中这样做:

window.PDFJS = pdfjsLib

这就是重点,pdf.js需要一个文件路径,我是这么说的,我需要在web上运行。你需要什么,如果你想在nodeJs(服务器端)中解析pdf,那么你还必须给出文件路径!!!现在我不确定你的问题到底是什么:P重点是,pdf.js需要文件路径,我是怎么说的,我需要在web上运行的。你需要什么,如果你想在nodeJs(服务器端)中解析pdf,那么你还必须给出文件路径!!!现在我不确定你到底有什么问题:你使用的是哪个库:pdf parse、pdf2json、pdf.js还是react pdf js?pdf.pdfInfo在哪里发挥作用?@CuriousChad我在使用pdf.js你在使用哪个库:pdf parse、pdf2json、pdf.js或react pdf js?pdf.pdfInfo在哪里发挥作用?@CuriousChad我正在使用pdf.js