Web crawler 数据爬虫还是别的什么

Web crawler 数据爬虫还是别的什么,web-crawler,import.io,Web Crawler,Import.io,我在找一些我不知道怎么做的事情。我对爬行、报废等方面没有深入的了解,但我相信我正在寻找的技术就是这些 我有一个大约100个网站的列表,我想经常监控。至少每3或4天一次。在这些网站中,我会寻找一些逻辑匹配,如: 文本包含“ABC”,不包含“BCZ” 或文本包含“XYZ”而不包含“ATM” 等等 该工具必须在以下方面查看这些网站: 网页 文档文件 DOCX文件 XLS文件 XLSX文件 TXT文件 RTF文件 PDF文件 RAR和ZIP文件 这些匹配必须是增量的(我只想要前X天的最新匹配) 最重

我在找一些我不知道怎么做的事情。我对爬行、报废等方面没有深入的了解,但我相信我正在寻找的技术就是这些

  • 我有一个大约100个网站的列表,我想经常监控。至少每3或4天一次。在这些网站中,我会寻找一些逻辑匹配,如:
  • 文本包含“ABC”,不包含“BCZ” 或文本包含“XYZ”而不包含“ATM” 等等

  • 该工具必须在以下方面查看这些网站:

    • 网页
    • 文档文件
    • DOCX文件
    • XLS文件
    • XLSX文件
    • TXT文件
    • RTF文件
    • PDF文件
    • RAR和ZIP文件
  • 这些匹配必须是增量的(我只想要前X天的最新匹配)

  • 最重要的是,在这100个网站中,大约有40个需要用户身份验证(我已经有了)

  • 只要有匹配,我都想下载:

    • 文件
    • 链接
    • 日期/时间
    • 比赛报告
  • 我一直在使用诸如import.io之类的工具,但我还没有弄清楚如何正确地执行它

    有没有人确切地知道我在寻找哪种技术?谁(什么样的专家,程序员)可以为我构建这项技术?对于一个了解数据爬行的程序员来说,构建它是否太难了


    抱歉为60个不需要身份验证的网站发了这么长的帖子

    您可以使用诸如标记要监视的网站之类的工具,并获取包含所需关键字内容的页面的交互式缩略图。Backstitch支持使用布尔运算符(您描述的和/或功能),并具有允许您以所需格式导出结果的API


    他们的支持团队(和CEO)过去在描述如何将其API用于定制搜索案例方面非常有帮助。祝您好运!

    对于60个不需要身份验证的网站:

    您可以使用诸如标记要监视的网站之类的工具,并获取包含所需关键字内容的页面的交互式缩略图。Backstitch支持使用布尔运算符(您描述的和/或功能),并具有允许您以所需格式导出结果的API


    他们的支持团队(和首席执行官)过去在描述如何将他们的API用于定制搜索案例方面非常有帮助。祝你好运!

    Hi Gabriel!正如Cameron提到的,这可以帮助你完成大部分你想做的事情。请给我一声欢呼,我将非常高兴地向你介绍如何构建这个:电子邮件jordan[AT]Backsit.chHi Gabriel!正如Cameron所提到的,它可以帮助你完成大部分你想做的事情。给我一声喊,我会非常高兴地告诉你如何构建这个:电子邮件jordan[AT]Backsit.chThanks作为推荐人Cameron-我认为这是我们可以帮助Gabriel至少70%的东西。谢谢,Cameron!我想这部分涵盖了我不想涵盖的内容。我会和他们谈谈并尝试一下!感谢推荐人Cameron-我想这是我们可以帮助Gabriel至少70%的东西。谢谢,Cameron!我想这涵盖了p艺术上我不会。我会和他们谈谈,试试看!