需要javascript中给定URL的完整呈现文本
我有一个奇怪的要求。我正在创建一个平台,艺术家将在其中创建个人资料并展示他们的作品。现在大多数艺术家都有他们以前的唱片或者其他一些网站平台,比如songkick或者他们自己的网站。现在,我的客户要求用户提供他们过去数据的url或其他信息,系统将通过该网站,根据某些字段获取内容。例如,事件数据包含事件/位置/日期 我现在用AWS来分析数据,我陷入的部分是获取整个网站的数据/文本 假设我有一个的url。我想去这个网站,并获得所有的渲染文本内。请建议我,如果这是不道德的,或者我需要做一些其他的方法 我现在想做的事情失败了需要javascript中给定URL的完整呈现文本,javascript,reactjs,web-scraping,web-crawler,Javascript,Reactjs,Web Scraping,Web Crawler,我有一个奇怪的要求。我正在创建一个平台,艺术家将在其中创建个人资料并展示他们的作品。现在大多数艺术家都有他们以前的唱片或者其他一些网站平台,比如songkick或者他们自己的网站。现在,我的客户要求用户提供他们过去数据的url或其他信息,系统将通过该网站,根据某些字段获取内容。例如,事件数据包含事件/位置/日期 我现在用AWS来分析数据,我陷入的部分是获取整个网站的数据/文本 假设我有一个的url。我想去这个网站,并获得所有的渲染文本内。请建议我,如果这是不道德的,或者我需要做一些其他的方法 我
fetch('https://www.somthing.com').then((response)=>console.log(response))
但这给了我获取失败类型错误
我知道我想到的第一个想法是使用提供的url平台API,但大多数网站都没有这个API,如果其他人也有同样的想法,那么我使用node js与
Puppeter
库和request
库(不推荐使用)
木偶演员
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto("https://www.kaiakater.com/shows");
const example = await page.evaluate(() => {
const temp = Array.from(document.body.getElementsByTagName("*"), (e1) => {});
请求库
const requestFunction = () => {
request("https://www.instagram.com/", function (error, response, body) {
console.error("error:", error);
// Print the error if one occurred
console.log("statusCode:", response && response.statusCode);
// Print the response
status code if a response was received
console.log("body:", body); // Print the HTML for the Google homepage.
});
};