需要javascript中给定URL的完整呈现文本_Javascript_Reactjs_Web Scraping_Web Crawler

需要javascript中给定URL的完整呈现文本

javascript reactjs web-scraping web-crawler

需要javascript中给定URL的完整呈现文本,javascript,reactjs,web-scraping,web-crawler,Javascript,Reactjs,Web Scraping,Web Crawler,我有一个奇怪的要求。我正在创建一个平台，艺术家将在其中创建个人资料并展示他们的作品。现在大多数艺术家都有他们以前的唱片或者其他一些网站平台，比如songkick或者他们自己的网站。现在，我的客户要求用户提供他们过去数据的url或其他信息，系统将通过该网站，根据某些字段获取内容。例如，事件数据包含事件/位置/日期我现在用AWS来分析数据，我陷入的部分是获取整个网站的数据/文本假设我有一个的url。我想去这个网站，并获得所有的渲染文本内。请建议我，如果这是不道德的，或者我需要做一些其他的方法我

我有一个奇怪的要求。我正在创建一个平台，艺术家将在其中创建个人资料并展示他们的作品。现在大多数艺术家都有他们以前的唱片或者其他一些网站平台，比如songkick或者他们自己的网站。现在，我的客户要求用户提供他们过去数据的url或其他信息，系统将通过该网站，根据某些字段获取内容。例如，事件数据包含事件/位置/日期

我现在用AWS来分析数据，我陷入的部分是获取整个网站的数据/文本

假设我有一个的url。我想去这个网站，并获得所有的渲染文本内。请建议我，如果这是不道德的，或者我需要做一些其他的方法

我现在想做的事情失败了

fetch('https://www.somthing.com').then((response)=>console.log(response))

但这给了我

获取失败类型错误

我知道我想到的第一个想法是使用提供的url平台API，但大多数网站都没有这个API，如果其他人也有同样的想法，那么我使用node js与

Puppeter

库和

request

库（不推荐使用）

木偶演员

const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://www.kaiakater.com/shows");
const example = await page.evaluate(() => {
  const temp = Array.from(document.body.getElementsByTagName("*"), (e1) => {});

请求库

const requestFunction = () => {
 request("https://www.instagram.com/", function (error, response, body) {
 console.error("error:", error); 
 // Print the error if one occurred
 console.log("statusCode:", response && response.statusCode); 
 // Print the response 
 status code if a response was received
 console.log("body:", body); // Print the HTML for the Google homepage.
});
};