Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/search/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Parsing 如何智能地从HTML页面提取信息?_Parsing_Search_Full Text Search_Machine Learning_Nlp - Fatal编程技术网

Parsing 如何智能地从HTML页面提取信息?

Parsing 如何智能地从HTML页面提取信息?,parsing,search,full-text-search,machine-learning,nlp,Parsing,Search,Full Text Search,Machine Learning,Nlp,我正在构建的东西或多或少可以从任意网站提取关键信息。例如,如果我爬过一个麦当劳网页,想通过编程计算出麦当劳的开门和关门时间,那么什么是一种智能的方法呢 一般来说,也许我也想知道麦当劳是卖鸡翅,还是麦当劳的地址 我想的是,我将为时间、翅膀、和地址设置一个特定的案例,并为这三个案例中的每一个设置唯一的代码 但我不确定我如何才能做到这一点。我已经对网站进行了爬网,并将HTML和相关信息解析为JSON。我目前的方法是查找title标记,并检查title标记是否包含地址或位置等关键字。如果title包含这

我正在构建的东西或多或少可以从任意网站提取关键信息。例如,如果我爬过一个麦当劳网页,想通过编程计算出麦当劳的开门和关门时间,那么什么是一种智能的方法呢

一般来说,也许我也想知道麦当劳是卖鸡翅,还是麦当劳的地址

我想的是,我将为
时间
翅膀
、和
地址
设置一个特定的案例,并为这三个案例中的每一个设置唯一的代码

但我不确定我如何才能做到这一点。我已经对网站进行了爬网,并将HTML和相关信息解析为JSON。我目前的方法是查找
title
标记,并检查
title
标记是否包含
地址
位置
等关键字。如果
title
包含这些
关键字
,然后,我将浏览当前页面,找出与地址相似的内容块,例如城市或国家的内容,或包含单词
St
Street
的内容

我想知道是否有更好的方法来寻找关键数据,寻找一个更好的起点,或者提出一些想法等等。或者,即使有关于这方面的好文章可以读,也会很好

如果不清楚,请告诉我


感谢您的帮助。

要解析此类HTML页面,您必须了解其结构。这个问题没有通用的解决办法。每个网页都需要自己的解决方案。然而,一个好的方法是确保HTML代码也是有效的XML,然后在已知的位置。甚至可能有一种类似XPath的标准HTML解决方案(并不总是有效的xml)。通过这种方式,您可以为每个页面定义一组XPath,这些XPath为您提供特定的元素(如果存在)