Php 从维基百科获取文章的第一段

Php 从维基百科获取文章的第一段,php,web-scraping,wikipedia,wikipedia-api,Php,Web Scraping,Wikipedia,Wikipedia Api,从维基百科上获取“好莱坞”一词的文章第一段的正确方法是什么?因此,$result变量包含 好莱坞是美国加利福尼亚州洛杉矶市的一个地区,位于洛杉矶市中心西北偏西。[2]由于其作为电影制片厂和电影明星的历史中心的声誉和文化身份,好莱坞这个词经常被用作美国电影的代名词。尽管电影业的大部分已经分散到了西洛杉矶、圣费尔南多和圣克拉丽塔山谷等周边地区,但重要的辅助产业,如编辑、特效、道具、后期制作和照明公司,以及派拉蒙电影公司的后台,仍然留在好莱坞 如果它包含HTML标记(甚至比纯文本更好),就可以了。您可

从维基百科上获取“好莱坞”一词的文章第一段的正确方法是什么?因此,
$result
变量包含

好莱坞是美国加利福尼亚州洛杉矶市的一个地区,位于洛杉矶市中心西北偏西。[2]由于其作为电影制片厂和电影明星的历史中心的声誉和文化身份,好莱坞这个词经常被用作美国电影的代名词。尽管电影业的大部分已经分散到了西洛杉矶、圣费尔南多和圣克拉丽塔山谷等周边地区,但重要的辅助产业,如编辑、特效、道具、后期制作和照明公司,以及派拉蒙电影公司的后台,仍然留在好莱坞

如果它包含HTML标记(甚至比纯文本更好),就可以了。

您可以使用该库轻松解析网页中的HTML:

include('inc/simple_html_dom.php'); // this line should be replaced with the Kohana way of including the library

// Create DOM from URL
$html = file_get_html('http://en.wikipedia.org/wiki/Hollywood');

// Get the first paragraph
$p = $html->find('p', 0);

echo $p->innertext; // Prints <b>Hollywood</b> is a district in (...)
include('inc/simple_html_dom.php');//该行应替换为包含库的Kohana方式
//从URL创建DOM
$html=file\u get\u html('http://en.wikipedia.org/wiki/Hollywood');
//获取第一段
$p=$html->find('p',0);
echo$p->innertext;//好莱坞是(…)的一个地区

我从未使用过Kohana,但似乎有,所以在您的项目中使用该库应该很容易

我不知道Kohana是什么,但是要获取某个Wikipedia页面的HTML文本,可以使用

例如,要获取Hollywood文章第一部分的HTML,可以使用如下查询:

这是XML格式,但JSON也是一个选项


此外,这将返回整个第一部分(包括信息框),而不仅仅是第一段。

屏幕抓取Wikipedia页面不是一个好主意,因为布局可以随时更改,并且有一个可用的API。您可以改为访问。这是一项以多种RDF格式提供wikipdia数据集的服务。看看页脚。特别是XML格式可能会让您感兴趣抱歉。好的,我知道如何将第一段放入$result?谢谢。我不懂PHP,所以我不能帮你,对不起。这算是“刮”吗?