Parsing 如何智能地从HTML页面提取信息？_Parsing_Search_Full Text Search_Machine Learning_Nlp

Parsing 如何智能地从HTML页面提取信息？

parsing search machine-learning nlp

Parsing 如何智能地从HTML页面提取信息？,parsing,search,full-text-search,machine-learning,nlp,Parsing,Search,Full Text Search,Machine Learning,Nlp,我正在构建的东西或多或少可以从任意网站提取关键信息。例如，如果我爬过一个麦当劳网页，想通过编程计算出麦当劳的开门和关门时间，那么什么是一种智能的方法呢一般来说，也许我也想知道麦当劳是卖鸡翅，还是麦当劳的地址我想的是，我将为时间、翅膀、和地址设置一个特定的案例，并为这三个案例中的每一个设置唯一的代码但我不确定我如何才能做到这一点。我已经对网站进行了爬网，并将HTML和相关信息解析为JSON。我目前的方法是查找title标记，并检查title标记是否包含地址或位置等关键字。如果title包含这

我正在构建的东西或多或少可以从任意网站提取关键信息。例如，如果我爬过一个麦当劳网页，想通过编程计算出麦当劳的开门和关门时间，那么什么是一种智能的方法呢

一般来说，也许我也想知道麦当劳是卖鸡翅，还是麦当劳的地址

我想的是，我将为

时间

、

翅膀

、和

地址

设置一个特定的案例，并为这三个案例中的每一个设置唯一的代码

但我不确定我如何才能做到这一点。我已经对网站进行了爬网，并将HTML和相关信息解析为JSON。我目前的方法是查找

title

标记，并检查

title

标记是否包含

地址

或

位置

等关键字。如果

title

包含这些

关键字

，然后，我将浏览当前页面，找出与地址相似的内容块，例如城市或国家的内容，或包含单词

St

或

Street

的内容

我想知道是否有更好的方法来寻找关键数据，寻找一个更好的起点，或者提出一些想法等等。或者，即使有关于这方面的好文章可以读，也会很好

如果不清楚，请告诉我

感谢您的帮助。

要解析此类HTML页面，您必须了解其结构。这个问题没有通用的解决办法。每个网页都需要自己的解决方案。然而，一个好的方法是确保HTML代码也是有效的XML，然后在已知的位置。甚至可能有一种类似XPath的标准HTML解决方案（并不总是有效的xml）。通过这种方式，您可以为每个页面定义一组XPath，这些XPath为您提供特定的元素（如果存在）