Parsing 如何智能地从HTML页面提取信息?
我正在构建的东西或多或少可以从任意网站提取关键信息。例如,如果我爬过一个麦当劳网页,想通过编程计算出麦当劳的开门和关门时间,那么什么是一种智能的方法呢 一般来说,也许我也想知道麦当劳是卖鸡翅,还是麦当劳的地址 我想的是,我将为Parsing 如何智能地从HTML页面提取信息?,parsing,search,full-text-search,machine-learning,nlp,Parsing,Search,Full Text Search,Machine Learning,Nlp,我正在构建的东西或多或少可以从任意网站提取关键信息。例如,如果我爬过一个麦当劳网页,想通过编程计算出麦当劳的开门和关门时间,那么什么是一种智能的方法呢 一般来说,也许我也想知道麦当劳是卖鸡翅,还是麦当劳的地址 我想的是,我将为时间、翅膀、和地址设置一个特定的案例,并为这三个案例中的每一个设置唯一的代码 但我不确定我如何才能做到这一点。我已经对网站进行了爬网,并将HTML和相关信息解析为JSON。我目前的方法是查找title标记,并检查title标记是否包含地址或位置等关键字。如果title包含这
时间
、翅膀
、和地址
设置一个特定的案例,并为这三个案例中的每一个设置唯一的代码
但我不确定我如何才能做到这一点。我已经对网站进行了爬网,并将HTML和相关信息解析为JSON。我目前的方法是查找title
标记,并检查title
标记是否包含地址
或位置
等关键字。如果title
包含这些关键字
,然后,我将浏览当前页面,找出与地址相似的内容块,例如城市或国家的内容,或包含单词St
或Street
的内容
我想知道是否有更好的方法来寻找关键数据,寻找一个更好的起点,或者提出一些想法等等。或者,即使有关于这方面的好文章可以读,也会很好
如果不清楚,请告诉我
感谢您的帮助。要解析此类HTML页面,您必须了解其结构。这个问题没有通用的解决办法。每个网页都需要自己的解决方案。然而,一个好的方法是确保HTML代码也是有效的XML,然后在已知的位置。甚至可能有一种类似XPath的标准HTML解决方案(并不总是有效的xml)。通过这种方式,您可以为每个页面定义一组XPath,这些XPath为您提供特定的元素(如果存在)