Web crawler 在爬网产品详细信息页面时动态分配列？_Web Crawler_Import.io

Web crawler 在爬网产品详细信息页面时动态分配列？

web-crawler

Web crawler 在爬网产品详细信息页面时动态分配列？,web-crawler,import.io,Web Crawler,Import.io,我对import.io和stack overflow一无所知，请善待我我试图抓取一家出售珠宝的在线商店的产品详细信息页面，并在页面上找到此类功能列表：功能性别男人技术风格石英材料不锈钢等等是否可以训练爬虫动态提取粗体文本作为列名，而非粗体文本作为列值？ i、 e.“性别”栏的值为“男性”，等等。假设在其他产品详细信息页面上，功能可能不以“性别”开头谢谢你的帮助我还没有尝试过，但我认为这些方法会奏效：通过选择所有粗体文本对一列进行训练，并使用XPath对另一列进行相应值的

我对import.io和stack overflow一无所知，请善待我

我试图抓取一家出售珠宝的在线商店的产品详细信息页面，并在页面上找到此类功能列表：

功能

性别男人

技术风格 石英

材料不锈钢

等等

是否可以训练爬虫动态提取粗体文本作为列名，而非粗体文本作为列值？ i、 e.“性别”栏的值为“男性”，等等。假设在其他产品详细信息页面上，功能可能不以“性别”开头

谢谢你的帮助

我还没有尝试过，但我认为这些方法会奏效：

通过选择所有粗体文本对一列进行训练，并使用XPath对另一列进行相应值的训练

将其全部训练为一行，以便始终选择所有功能

完全有可能：）

你做了一个col并给它取了个名字-Gender

然后单击或突出显示所需的数据-Men

如果您觉得它不起作用，您可以使用高级xpath

如何：

要执行此操作，请单击列名称旁边的数据类型，在下图中，您可以看到位于左侧窗格右侧的粉红色文本，上面写着“text”

然后，当您看到“显示高级设置”选项时，应单击该选项

当您在那里时，您可以添加一个“xpath覆盖”，并将其放在那里

//*[text()="Gender"]/following-sibling::*

这会告诉import.io数据“准确地”基于一组可以放入其中的规则的位置

本文将提供一些帮助：

这一个将在页面上找到所有提到的性别这个词，然后在HTML中查看它旁边的内容，并将其放入您的col中