Node.js 如何使用puppeter.js读取pdf文件并以html显示?

Node.js 如何使用puppeter.js读取pdf文件并以html显示?,node.js,web-scraping,puppeteer,Node.js,Web Scraping,Puppeteer,我希望你平安 我正在制作一个脚本,在站点中执行一些刮片。现在的问题是,我有一个网站有pdf。因此,我无法使用puppeter和Node.js读取该pdf文件 我能够阅读其他链接中的其他文本 我试过的 const puppeteer = require('puppeteer') async function printPDF() { const browser = await puppeteer.launch({ headless: true }); const page = awa

我希望你平安

我正在制作一个脚本,在站点中执行一些刮片。现在的问题是,我有一个网站有pdf。因此,我无法使用
puppeter
Node.js
读取该pdf文件

我能够阅读其他链接中的其他文本

我试过的

const puppeteer = require('puppeteer')

async function printPDF() {
   const browser = await puppeteer.launch({ headless: true });
   const page = await browser.newPage();
   await page.goto('https://blog.risingstack.com', {waitUntil: 'networkidle0'});
   const pdf = await page.pdf({ format: 'A4' });

   await browser.close();
   return pdf
})
它将工作添加到pdf文本,但我需要pdf文本


有人能帮我吗?

有一个名为“pdfreader”的npm模块。您可以查看。

谢谢您的回复。您确定此npm能够从Live链接读取pdf吗?链接可以是任意的。当我检查这个npm时,它将用于从本地路径读取pdf。在我的例子中:URL可以是:htttps://anyhost.com/any/path/of/pdf/sample.pdfOh 现在我知道你面临什么问题了。根据我的研究,木偶演员无头模式还不支持在线阅读pdf。但一定有办法扭转局面。我发现这两篇文章可能对你有所帮助。1-)2-)第一个是Google Drive Viewer能够阅读pdf。第二个是先下载pdf文件,然后做任何你想做的事情。您可以为2使用“pdfreader”模块。我也是替补。