Web crawler 数据爬虫还是别的什么_Web Crawler_Import.io

Web crawler 数据爬虫还是别的什么

web-crawler

Web crawler 数据爬虫还是别的什么,web-crawler,import.io,Web Crawler,Import.io,我在找一些我不知道怎么做的事情。我对爬行、报废等方面没有深入的了解，但我相信我正在寻找的技术就是这些我有一个大约100个网站的列表，我想经常监控。至少每3或4天一次。在这些网站中，我会寻找一些逻辑匹配，如：文本包含“ABC”，不包含“BCZ” 或文本包含“XYZ”而不包含“ATM” 等等该工具必须在以下方面查看这些网站：网页文档文件 DOCX文件 XLS文件 XLSX文件 TXT文件 RTF文件 PDF文件 RAR和ZIP文件这些匹配必须是增量的（我只想要前X天的最新匹配）最重

我在找一些我不知道怎么做的事情。我对爬行、报废等方面没有深入的了解，但我相信我正在寻找的技术就是这些

我有一个大约100个网站的列表，我想经常监控。至少每3或4天一次。在这些网站中，我会寻找一些逻辑匹配，如：

文本包含“ABC”，不包含“BCZ” 或文本包含“XYZ”而不包含“ATM” 等等

该工具必须在以下方面查看这些网站：

网页
文档文件
DOCX文件
XLS文件
XLSX文件
TXT文件
RTF文件
PDF文件
RAR和ZIP文件

这些匹配必须是增量的（我只想要前X天的最新匹配）

最重要的是，在这100个网站中，大约有40个需要用户身份验证（我已经有了）

只要有匹配，我都想下载：

文件
链接
日期/时间
比赛报告

我一直在使用诸如import.io之类的工具，但我还没有弄清楚如何正确地执行它

有没有人确切地知道我在寻找哪种技术？谁（什么样的专家，程序员）可以为我构建这项技术？对于一个了解数据爬行的程序员来说，构建它是否太难了

抱歉为60个不需要身份验证的网站发了这么长的帖子

：

您可以使用诸如标记要监视的网站之类的工具，并获取包含所需关键字内容的页面的交互式缩略图。Backstitch支持使用布尔运算符（您描述的和/或功能），并具有允许您以所需格式导出结果的API

他们的支持团队（和CEO）过去在描述如何将其API用于定制搜索案例方面非常有帮助。祝您好运！

对于60个不需要身份验证的网站：

他们的支持团队（和首席执行官）过去在描述如何将他们的API用于定制搜索案例方面非常有帮助。祝你好运！

Hi Gabriel！正如Cameron提到的，这可以帮助你完成大部分你想做的事情。请给我一声欢呼，我将非常高兴地向你介绍如何构建这个：电子邮件jordan[AT]Backsit.chHi Gabriel！正如Cameron所提到的，它可以帮助你完成大部分你想做的事情。给我一声喊，我会非常高兴地告诉你如何构建这个：电子邮件jordan[AT]Backsit.chThanks作为推荐人Cameron-我认为这是我们可以帮助Gabriel至少70%的东西。谢谢，Cameron！我想这部分涵盖了我不想涵盖的内容。我会和他们谈谈并尝试一下！感谢推荐人Cameron-我想这是我们可以帮助Gabriel至少70%的东西。谢谢，Cameron！我想这涵盖了p艺术上我不会。我会和他们谈谈，试试看！