Php “如何获取维基百科”;“干净”;内容?

Php “如何获取维基百科”;“干净”;内容?,php,wikipedia,wikipedia-api,mediawiki-api,Php,Wikipedia,Wikipedia Api,Mediawiki Api,我正在使用mediawikiapi从维基百科页面获取内容。 我已经编写了生成下一个查询的代码(例如): 它仅检索Wikipdia页面中有关夏威夷的前导段落 问题是,正如您可能注意到的,有很多不相关的子字符串,例如: “[[Molokai|Moloka{okina}i]]、[[Lanai|Lāna{okina}i]]、[[Kahoolawe}Kaho{okina}olawe]]、[[Maui]]和[[hawai(岛){code> 所有这些barcket[[]]都不相关,我想知道是否有一种更有效的

我正在使用
mediawikiapi
从维基百科页面获取内容。 我已经编写了生成下一个查询的代码(例如):

它仅检索Wikipdia页面中有关夏威夷的前导段落

问题是,正如您可能注意到的,有很多不相关的子字符串,例如:

“[[Molokai|Moloka{okina}i]]、[[Lanai|Lāna{okina}i]]、[[Kahoolawe}Kaho{okina}olawe]]、[[Maui]]和[[hawai(岛){code>

所有这些barcket[[]]都不相关,我想知道是否有一种更有效的方法可以只从这些页面中提取“干净”的内容

提前感谢。

请尝试以下内容:

$relevant=preg_replace('/[[.]]/',''.$string)


编辑:刚刚找到-希望这对您有所帮助

您可以通过以下查询从Wikipedia获取干净的HTML文本:

如果您只需要纯文本,而不需要HTML,请尝试以下操作:


这也删除了实际的链接标签。谢谢,这实际上满足了我的需要-但是-我已经构建了一个web应用程序,因此我将搜索类似web的功能。您真的只想要第一部分,还是只是一个示例?