使用php解析网页

使用php解析网页,php,Php,我在寻找一个简单的方法来刮任何网页的某些关键字的存在。我有一个单词列表,比如{苹果、香蕉、梨、菠萝},还有一个链接列表。我需要搜索我的单词列表的每个页面,并返回每个链接上出现的单词。例如,对于链接: 我应该搜索该页面并返回二进制变量0 1 1 0的向量,其中每个相应的二进制变量对应于列表中每个相应搜索键的存在或不存在。我很难找到搜索网页的方法,因为我是php新手。刮取网页的最佳方式是什么,以便只获取页面上的相关文本(即没有html标记、css或javascript元数据等)?我曾经尝试过cur

我在寻找一个简单的方法来刮任何网页的某些关键字的存在。我有一个单词列表,比如{苹果、香蕉、梨、菠萝},还有一个链接列表。我需要搜索我的单词列表的每个页面,并返回每个链接上出现的单词。例如,对于链接:

我应该搜索该页面并返回二进制变量0 1 1 0的向量,其中每个相应的二进制变量对应于列表中每个相应搜索键的存在或不存在。我很难找到搜索网页的方法,因为我是php新手。刮取网页的最佳方式是什么,以便只获取页面上的相关文本(即没有html标记、css或javascript元数据等)?我曾经尝试过curl和get_file_内容,但它们返回了非常难看的网页表示。任何人都可以提供一个在页面上返回文本的片段,以便我可以搜索返回的文本吗

提前谢谢

curl不起作用的一个主要例子是页面


我试图在它上面找到关键字IL,它会返回非相关文本供我在其中搜索。

使用一些预先构建的内容查看

这将满足您的需求: