Regex 智能网站数据提取算法
我正在建立一个交易聚合器,所以我需要一个爬虫,将提取一些网站的数据:价格,折扣,图像,坐标和cource的交易名称 你知道有什么教程、电子书或其他对我有帮助的东西吗?对于图像、坐标和折扣,我有一个解决方案和模式:Regex 智能网站数据提取算法,regex,algorithm,data-extraction,Regex,Algorithm,Data Extraction,我正在建立一个交易聚合器,所以我需要一个爬虫,将提取一些网站的数据:价格,折扣,图像,坐标和cource的交易名称 你知道有什么教程、电子书或其他对我有帮助的东西吗?对于图像、坐标和折扣,我有一个解决方案和模式: 图像:最大的图像始终是交易的主图像 折扣:折扣始终是一个介于50和99之间的数字,并且始终有一个“%”符号 坐标:总是以十进制数表示,所以我用正则表达式得到它 如何获取以下项目 交易名称 价格 您知道有哪些数据提取算法会有所帮助吗?我建议您使用基于XPath的scraper。比
- 图像:最大的图像始终是交易的主图像
- 折扣:折扣始终是一个介于50和99之间的数字,并且始终有一个“%”符号
- 坐标:总是以十进制数表示,所以我用正则表达式得到它
- 交易名称
- 价格
您知道有哪些数据提取算法会有所帮助吗?我建议您使用基于XPath的scraper。比如说 或者,如果您想分析原始文本,我建议使用状态机解析器来识别文本的模板部分
查看本主题:如果您可以访问目标站点的html源代码,则可以为其构造XPath表达式。您可以这样做,因为通常标题、价格和其他文本元素的位置可能与html标记有关,我有大约10000个站点(团购),但我不想为每个站点创建10000个刮板。。。所以我需要为所有这些站点提供一些独特的解决方案,正如我所说,我有图像和不连续的解决方案,但对于其他元素,我没有很好的解决方案。看看状态机解析器,它可以识别原始文本的模板部分