Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/regex/16.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Regex 智能网站数据提取算法_Regex_Algorithm_Data Extraction - Fatal编程技术网

Regex 智能网站数据提取算法

Regex 智能网站数据提取算法,regex,algorithm,data-extraction,Regex,Algorithm,Data Extraction,我正在建立一个交易聚合器,所以我需要一个爬虫,将提取一些网站的数据:价格,折扣,图像,坐标和cource的交易名称 你知道有什么教程、电子书或其他对我有帮助的东西吗?对于图像、坐标和折扣,我有一个解决方案和模式: 图像:最大的图像始终是交易的主图像 折扣:折扣始终是一个介于50和99之间的数字,并且始终有一个“%”符号 坐标:总是以十进制数表示,所以我用正则表达式得到它 如何获取以下项目 交易名称 价格 您知道有哪些数据提取算法会有所帮助吗?我建议您使用基于XPath的scraper。比

我正在建立一个交易聚合器,所以我需要一个爬虫,将提取一些网站的数据:价格,折扣,图像,坐标和cource的交易名称

你知道有什么教程、电子书或其他对我有帮助的东西吗?对于图像、坐标和折扣,我有一个解决方案和模式:

  • 图像:最大的图像始终是交易的主图像
  • 折扣:折扣始终是一个介于50和99之间的数字,并且始终有一个“%”符号
  • 坐标:总是以十进制数表示,所以我用正则表达式得到它
如何获取以下项目

  • 交易名称
  • 价格

您知道有哪些数据提取算法会有所帮助吗?

我建议您使用基于XPath的scraper。比如说

或者,如果您想分析原始文本,我建议使用状态机解析器来识别文本的模板部分


查看本主题:

如果您可以访问目标站点的html源代码,则可以为其构造XPath表达式。您可以这样做,因为通常标题、价格和其他文本元素的位置可能与html标记有关,我有大约10000个站点(团购),但我不想为每个站点创建10000个刮板。。。所以我需要为所有这些站点提供一些独特的解决方案,正如我所说,我有图像和不连续的解决方案,但对于其他元素,我没有很好的解决方案。看看状态机解析器,它可以识别原始文本的模板部分