Php 从维基百科获取文章的第一段_Php_Web Scraping_Wikipedia_Wikipedia Api

Php 从维基百科获取文章的第一段

php web-scraping

Php 从维基百科获取文章的第一段,php,web-scraping,wikipedia,wikipedia-api,Php,Web Scraping,Wikipedia,Wikipedia Api,从维基百科上获取“好莱坞”一词的文章第一段的正确方法是什么？因此，$result变量包含好莱坞是美国加利福尼亚州洛杉矶市的一个地区，位于洛杉矶市中心西北偏西。[2]由于其作为电影制片厂和电影明星的历史中心的声誉和文化身份，好莱坞这个词经常被用作美国电影的代名词。尽管电影业的大部分已经分散到了西洛杉矶、圣费尔南多和圣克拉丽塔山谷等周边地区，但重要的辅助产业，如编辑、特效、道具、后期制作和照明公司，以及派拉蒙电影公司的后台，仍然留在好莱坞如果它包含HTML标记（甚至比纯文本更好），就可以了。您可

从维基百科上获取“好莱坞”一词的文章第一段的正确方法是什么？因此，

$result

变量包含

好莱坞是美国加利福尼亚州洛杉矶市的一个地区，位于洛杉矶市中心西北偏西。[2]由于其作为电影制片厂和电影明星的历史中心的声誉和文化身份，好莱坞这个词经常被用作美国电影的代名词。尽管电影业的大部分已经分散到了西洛杉矶、圣费尔南多和圣克拉丽塔山谷等周边地区，但重要的辅助产业，如编辑、特效、道具、后期制作和照明公司，以及派拉蒙电影公司的后台，仍然留在好莱坞

如果它包含HTML标记（甚至比纯文本更好），就可以了。

您可以使用该库轻松解析网页中的HTML：

include('inc/simple_html_dom.php'); // this line should be replaced with the Kohana way of including the library

// Create DOM from URL
$html = file_get_html('http://en.wikipedia.org/wiki/Hollywood');

// Get the first paragraph
$p = $html->find('p', 0);

echo $p->innertext; // Prints <b>Hollywood</b> is a district in (...)

include（'inc/simple_html_dom.php'）；//该行应替换为包含库的Kohana方式
//从URL创建DOM
$html=file\u get\u html（'http://en.wikipedia.org/wiki/Hollywood');
//获取第一段
$p=$html->find（'p'，0）；
echo$p->innertext；//好莱坞是（…）的一个地区

我从未使用过Kohana，但似乎有，所以在您的项目中使用该库应该很容易

我不知道Kohana是什么，但是要获取某个Wikipedia页面的HTML文本，可以使用

例如，要获取Hollywood文章第一部分的HTML，可以使用如下查询：

这是XML格式，但JSON也是一个选项

此外，这将返回整个第一部分（包括信息框），而不仅仅是第一段。

屏幕抓取Wikipedia页面不是一个好主意，因为布局可以随时更改，并且有一个可用的API。您可以改为访问。这是一项以多种RDF格式提供wikipdia数据集的服务。看看页脚。特别是XML格式可能会让您感兴趣抱歉。好的，我知道如何将第一段放入$result？谢谢。我不懂PHP，所以我不能帮你，对不起。这算是“刮”吗？