Web数据提取/屏幕抓取(开源)

Web数据提取/屏幕抓取(开源),web,data-extraction,Web,Data Extraction,我有以下需要,需要使用屏幕抓取或web提取框架的代码来完成 我去一个网页 输入一个值以搜索实体 显示结果后,需要捕获它们并将其作为输出返回 有人能推荐一些好的开源web提取工具(他们已经使用过)来允许这种数据提取(搜索)吗 我们将非常感谢您提供的任何帮助/建议。可能正是您需要的。当然,您可以自己编写HTTP请求并用任何语言解析响应。如果您正在寻找一种通常适用于任何网站的解决方案,这是一个很难解决的问题。需求将具体包括:查找搜索框、识别每个单独的结果、分离结果字段以及按顺序访问所有返回的结果页面。

我有以下需要,需要使用屏幕抓取或web提取框架的代码来完成

  • 我去一个网页
  • 输入一个值以搜索实体
  • 显示结果后,需要捕获它们并将其作为输出返回
  • 有人能推荐一些好的开源web提取工具(他们已经使用过)来允许这种数据提取(搜索)吗


    我们将非常感谢您提供的任何帮助/建议。

    可能正是您需要的。当然,您可以自己编写HTTP请求并用任何语言解析响应。

    如果您正在寻找一种通常适用于任何网站的解决方案,这是一个很难解决的问题。需求将具体包括:查找搜索框、识别每个单独的结果、分离结果字段以及按顺序访问所有返回的结果页面。为此,您可能需要这样的内容(免责声明:我制作了这个项目)


    但是,如果您只想找到一种方法将查询提交到特定站点并获得结果html,我建议您研究一下该标准。网站运营商实施OpenSearch,然后消费者获得编程访问。例如,其中一个消费者是Firefox——请参阅:。请记住,(不幸的是)很少有网站运营商实现了标准中允许的所有功能(如分页结果、获取Atom格式的结果等)。

    是PPT的新尝试,我们专门从各种公共领域提取数据,使其易于访问,并使其对用户友好,满足您的所有数据需求。

    我的问题是:我的目标是将其作为web服务公开。因此,web服务输入将成为搜索标准,响应将是页面上出现的内容。这是开源的吗?