Web crawler 在爬网产品详细信息页面时动态分配列?

Web crawler 在爬网产品详细信息页面时动态分配列?,web-crawler,import.io,Web Crawler,Import.io,我对import.io和stack overflow一无所知,请善待我 我试图抓取一家出售珠宝的在线商店的产品详细信息页面,并在页面上找到此类功能列表: 功能 性别 男人 技术风格 石英 材料 不锈钢 等等 是否可以训练爬虫动态提取粗体文本作为列名,而非粗体文本作为列值? i、 e.“性别”栏的值为“男性”,等等。假设在其他产品详细信息页面上,功能可能不以“性别”开头 谢谢你的帮助 我还没有尝试过,但我认为这些方法会奏效: 通过选择所有粗体文本对一列进行训练,并使用XPath对另一列进行相应值的

我对import.io和stack overflow一无所知,请善待我

我试图抓取一家出售珠宝的在线商店的产品详细信息页面,并在页面上找到此类功能列表:

功能

性别 男人

技术风格 石英

材料 不锈钢

等等

是否可以训练爬虫动态提取粗体文本作为列名,而非粗体文本作为列值? i、 e.“性别”栏的值为“男性”,等等。假设在其他产品详细信息页面上,功能可能不以“性别”开头


谢谢你的帮助

我还没有尝试过,但我认为这些方法会奏效:

  • 通过选择所有粗体文本对一列进行训练,并使用XPath对另一列进行相应值的训练
  • 将其全部训练为一行,以便始终选择所有功能
  • 完全有可能:)

  • 你做了一个col并给它取了个名字-Gender
  • 然后单击或突出显示所需的数据-Men
  • 如果您觉得它不起作用,您可以使用高级xpath

    如何:

    要执行此操作,请单击列名称旁边的数据类型,在下图中,您可以看到位于左侧窗格右侧的粉红色文本,上面写着“text”

    然后,当您看到“显示高级设置”选项时,应单击该选项

    当您在那里时,您可以添加一个“xpath覆盖”,并将其放在那里

    //*[text()="Gender"]/following-sibling::*
    
    这会告诉import.io数据“准确地”基于一组可以放入其中的规则的位置

    本文将提供一些帮助:

    这一个将在页面上找到所有提到的性别这个词,然后在HTML中查看它旁边的内容,并将其放入您的col中