Regex 智能网站数据提取算法_Regex_Algorithm_Data Extraction

Regex 智能网站数据提取算法

regex algorithm

Regex 智能网站数据提取算法,regex,algorithm,data-extraction,Regex,Algorithm,Data Extraction,我正在建立一个交易聚合器，所以我需要一个爬虫，将提取一些网站的数据：价格，折扣，图像，坐标和cource的交易名称你知道有什么教程、电子书或其他对我有帮助的东西吗？对于图像、坐标和折扣，我有一个解决方案和模式：图像：最大的图像始终是交易的主图像折扣：折扣始终是一个介于50和99之间的数字，并且始终有一个“%”符号坐标：总是以十进制数表示，所以我用正则表达式得到它如何获取以下项目交易名称价格您知道有哪些数据提取算法会有所帮助吗？我建议您使用基于XPath的scraper。比

我正在建立一个交易聚合器，所以我需要一个爬虫，将提取一些网站的数据：价格，折扣，图像，坐标和cource的交易名称

你知道有什么教程、电子书或其他对我有帮助的东西吗？对于图像、坐标和折扣，我有一个解决方案和模式：

图像：最大的图像始终是交易的主图像
折扣：折扣始终是一个介于50和99之间的数字，并且始终有一个“%”符号
坐标：总是以十进制数表示，所以我用正则表达式得到它

如何获取以下项目

交易名称
价格

您知道有哪些数据提取算法会有所帮助吗？

我建议您使用基于XPath的scraper。比如说

或者，如果您想分析原始文本，我建议使用状态机解析器来识别文本的模板部分

查看本主题：

如果您可以访问目标站点的html源代码，则可以为其构造XPath表达式。您可以这样做，因为通常标题、价格和其他文本元素的位置可能与html标记有关，我有大约10000个站点（团购），但我不想为每个站点创建10000个刮板。。。所以我需要为所有这些站点提供一些独特的解决方案，正如我所说，我有图像和不连续的解决方案，但对于其他元素，我没有很好的解决方案。看看状态机解析器，它可以识别原始文本的模板部分