Web crawler 使用import.io在多个具有不同结构的网站中搜索单词

Web crawler 使用import.io在多个具有不同结构的网站中搜索单词,web-crawler,extract,import.io,Web Crawler,Extract,Import.io,我有一个超过10000个网站的列表,我想在所有这些网站中搜索一个关键字 如果网站包含关键字,则预期结果应该类似于链接和值为1的列,如果不包含关键字,则为0 有没有办法指定要使用import.io搜索的网站列表和关键字?当您正在爬网的每个网站都有类似的结构时,import-io会做得最好。如果设置为使用导入io 1) 将所有网站链接放入一列 2) 使用“提取器”类型API的“批量提取”选项从每页中提取所有文本并将其放入一列中 3) 打开导出的excel或google电子表格,并使用“查找”功能查看

我有一个超过10000个网站的列表,我想在所有这些网站中搜索一个关键字

如果网站包含关键字,则预期结果应该类似于链接和值为1的列,如果不包含关键字,则为0


有没有办法指定要使用import.io搜索的网站列表和关键字?

当您正在爬网的每个网站都有类似的结构时,import-io会做得最好。如果设置为使用导入io

1) 将所有网站链接放入一列

2) 使用“提取器”类型API的“批量提取”选项从每页中提取所有文本并将其放入一列中

3) 打开导出的excel或google电子表格,并使用“查找”功能查看关键字是否包含在每个单元格中

话虽如此,我认为你可能会有更好的运气使用不同的网页抓取服务,因为你实际上并不想提取内容