使用PHP获取任何语言的任何站点的标题和元标记

使用PHP获取任何语言的任何站点的标题和元标记,php,character-encoding,html-parsing,meta-tags,Php,Character Encoding,Html Parsing,Meta Tags,我想尝试找出如何从网页中获取标题和所有元标记 常用标题 这个问题似乎在stackoverflow上被问了好几次,也回答了好几次,但没有一个答案关心网页的语言/字符集。例如,这里的shamittomar脚本仅适用于utf-8中的网页。此脚本无法工作,例如,它将返回这些站点的奇怪结果: (注:以上网站不是我的,只是示例) 有没有什么方法可以用正确的方式来做这件事,有没有可用的类来做这件事?因为Facebook Linter可以正确地处理上述站点,所以我认为PHP脚本中有可用的解决方案 谢谢。您

我想尝试找出如何从网页中获取标题和所有元标记

常用标题
这个问题似乎在stackoverflow上被问了好几次,也回答了好几次,但没有一个答案关心网页的语言/字符集。例如,这里的shamittomar脚本仅适用于utf-8中的网页。此脚本无法工作,例如,它将返回这些站点的奇怪结果:

(注:以上网站不是我的,只是示例)

有没有什么方法可以用正确的方式来做这件事,有没有可用的类来做这件事?因为Facebook Linter可以正确地处理上述站点,所以我认为PHP脚本中有可用的解决方案

谢谢。

您应该使用php的“获取元数据标签”功能,它提供标题、描述和关键字。有关详细信息,请参阅此链接:

如果您需要更多信息,那么您也可以使用“file\u get\u contents”方法,该方法将返回该url的源,然后解析它并提取相关信息。请参阅此链接:

http://www.tudou.com/
是一个不太好的站点示例,它的标题中没有设置字符集。从一开始就手动解析这个字符集,这样就可以了。我对
http://svmpbt.com/
iconv
可能是你的朋友。你能说得更具体些吗?我应该在shamittomar的脚本中更改什么?
<title>A common title</title>
<meta name="keywords" content="Keywords blabla" />
<meta name="description" content="This is the description" />