Web crawler 在爬网产品详细信息页面时动态分配列?
我对import.io和stack overflow一无所知,请善待我 我试图抓取一家出售珠宝的在线商店的产品详细信息页面,并在页面上找到此类功能列表: 功能 性别 男人 技术风格 石英 材料 不锈钢 等等 是否可以训练爬虫动态提取粗体文本作为列名,而非粗体文本作为列值? i、 e.“性别”栏的值为“男性”,等等。假设在其他产品详细信息页面上,功能可能不以“性别”开头Web crawler 在爬网产品详细信息页面时动态分配列?,web-crawler,import.io,Web Crawler,Import.io,我对import.io和stack overflow一无所知,请善待我 我试图抓取一家出售珠宝的在线商店的产品详细信息页面,并在页面上找到此类功能列表: 功能 性别 男人 技术风格 石英 材料 不锈钢 等等 是否可以训练爬虫动态提取粗体文本作为列名,而非粗体文本作为列值? i、 e.“性别”栏的值为“男性”,等等。假设在其他产品详细信息页面上,功能可能不以“性别”开头 谢谢你的帮助 我还没有尝试过,但我认为这些方法会奏效: 通过选择所有粗体文本对一列进行训练,并使用XPath对另一列进行相应值的
谢谢你的帮助 我还没有尝试过,但我认为这些方法会奏效:
//*[text()="Gender"]/following-sibling::*
这会告诉import.io数据“准确地”基于一组可以放入其中的规则的位置
本文将提供一些帮助:
这一个将在页面上找到所有提到的性别这个词,然后在HTML中查看它旁边的内容,并将其放入您的col中