Web scraping Web抓取产品详细信息,而不是UIPath中的列表/表

Web scraping Web抓取产品详细信息,而不是UIPath中的列表/表,web-scraping,uipath,Web Scraping,Uipath,我有一种情况,我想在一个页面上用20/30个不同的属性布局来刮取一个公司的概要文件,将其中的每个元素保存为列标题,并在目录中分页,然后构建一个表,每个页面作为一行,列是各种数据点(所有标签在同一页面上都有不同的标签,但在不同页面上是一致的) 现在,我一直在经历复制文本和使用UI资源管理器查找元素的艰苦过程,与屏幕抓取向导相比,这真是一个痛苦的过程 下面是一个指向test上的配置文件的链接,例如,页面上的标记都不同,但是如果我想刮取另一个页面,标记将是相同的,因此可以分页并创建所有这些公司的真正有

我有一种情况,我想在一个页面上用20/30个不同的属性布局来刮取一个公司的概要文件,将其中的每个元素保存为列标题,并在目录中分页,然后构建一个表,每个页面作为一行,列是各种数据点(所有标签在同一页面上都有不同的标签,但在不同页面上是一致的)

现在,我一直在经历复制文本和使用UI资源管理器查找元素的艰苦过程,与屏幕抓取向导相比,这真是一个痛苦的过程

下面是一个指向test上的配置文件的链接,例如,页面上的标记都不同,但是如果我想刮取另一个页面,标记将是相同的,因此可以分页并创建所有这些公司的真正有价值的表

参考:


但是这里没有解决方案

根据文档,您可以废弃任何结构化数据

由于owler中的数据是结构化的,因此阻止您使用报废向导获取所有公司的信息的唯一问题是无法在网页中指示下一步按钮,以导航到下一个项目

所以“在我看来”你应该用不同的方法来解决这个问题。你可以尝试以下方法:

  • 在excel文件或编排器队列中创建公司列表
  • 打开浏览器并登录(如有必要)
  • 从excel或队列中读取数据
  • 迭代项目和每个项目
  • 通过附加baseURL导航到公司页面
    ()公司名称取自
    excel行/队列事务,并使用导航到活动()转到该页面
  • 将锚定基本活动()与固定元素一起使用,以获取所需的值。例如,使用年度收入标签作为锚定,以获取年度收入的值。如果您能找到合适的锚定点,它将为您提供更准确的结果,而且在样式更改的情况下,您的流程仍然可以工作
  • 将刮取的数据写入excel文件

  • 如果您不知道从哪里开始,请看一看,我认为这是一个很好的起点。

    由于数据不是标准的数据表格式,提取数据表向导将无法在这里工作,正如您所发现的。也就是说,由于数据在不同的公司中显示在同一位置,因此可以使用动态选择器。对于示例:创建的数据字段将始终位于该选择器包含的位置:

    -

    -


    *注意:我已将<标记替换为-您能分享您迄今为止的尝试吗?这不是与编程相关的真正问题,而是对UiPath的功能请求。如果每个配置文件页面上的标记相同,您是否会创建一次且仅创建一次刮片工作流?UiPath中没有用于刮片单个匹配元素的选项数据。我看到了许多不同的解决方案,但没有找到正确的解决方案。请详细说明。当然UiPath可以从任何元素获取数据,如div、p或h2。举个例子——我使用特斯拉的配置文件创建页面,然后为BMW执行机器人(注意,输出窗口中返回了Harald Kruger):