Google apps script 将数据从网站提取到Google工作表

Google apps script 将数据从网站提取到Google工作表,google-apps-script,web-scraping,google-sheets,Google Apps Script,Web Scraping,Google Sheets,我正在尝试从https://ec.europa.eu/info/funding-tenders/opportunities/portal/screen/how-to-participate/org-details/XXXXXXXX到谷歌工作表。我尝试使用importxml函数将数据提取到以下列中,当从ID号中替换XXXXXXXX并浏览到页面时,每个公司名称都有一个ID号 TYPE OF ORGANISATION // TAGS/KEYWORDS // DESCRIPTION // PROJECT

我正在尝试从
https://ec.europa.eu/info/funding-tenders/opportunities/portal/screen/how-to-participate/org-details/XXXXXXXX
到谷歌工作表。我尝试使用
importxml
函数将数据提取到以下列中,当从ID号中替换
XXXXXXXX
并浏览到页面时,每个公司名称都有一个ID号

TYPE OF ORGANISATION // TAGS/KEYWORDS // DESCRIPTION // PROJECTS FUNDED
我有500个链接每谷歌表。这是Google Sheets文件的链接

我怎样才能得到一个代码修复这个问题

这是网站上所需的信息

您可以与木偶师一起使用来刮网;找到API。你可能需要四处游荡,瞄准特定的目标。不确定如何将其进一步导出到Google Sheets,可能是csv/json(如果支持)文件。

您熟悉吗?即使你不是,如果你有任何编程经验,你会发现应用程序脚本非常容易学习。它只是JavaScript,您可以从Google工作表中运行。进入谷歌工作表中的工具>脚本编辑器开始

我推荐这个项目。它是一个非常简单的工具,用于发出基本HTTP请求以获取网页,并可用于轻量级web抓取。一旦您从
UrlFetchApp
获得响应,您就可以使用类似的库在页面上提取所需的内容,并将内容定向为


这里已经提供的另一个答案当然也是有效的,但我认为你会发现Node.js和puppeter的学习曲线要陡峭得多,所以如果你还没有使用Node的经验,我建议你从Apps脚本开始。此外,应用程序脚本已经是Google Sheets的一部分,因此您也不必处理导出/导入,这很方便。

据我所知,您正处于这里描述的情况,内容是由javascript动态生成的(请参阅您可以找到的源代码)。当您通过禁用javascript应用建议时,您将只找到动态徽标。即使在这种情况下,内容也不会嵌入到一个json对象中。通过异步过程加载后对内容的页面调用