Php InstaPaper API-/API/1/书签/获取文本
我正在使用InstaPaper API 我用这个字符串来提取文章的内容Php InstaPaper API-/API/1/书签/获取文本,php,api,instapaper,Php,Api,Instapaper,我正在使用InstaPaper API 我用这个字符串来提取文章的内容 $Bookmark_Text = $connection->getBookmarkText($Bookmark['bookmark_id']); 不幸的是,它是拉整个html和基本上把html结构在我的html 例如 <html> <head></head> <body> <html> <head>Instapaper Title
$Bookmark_Text = $connection->getBookmarkText($Bookmark['bookmark_id']);
不幸的是,它是拉整个html和基本上把html结构在我的html
例如
<html>
<head></head>
<body>
<html>
<head>Instapaper Title</head>
<body>InstaPaper Article Content</body>
</html>
</body>
</html>
Instapaper标题
InstaPaper文章内容
关于如何获取“Instapaper文章内容”有何想法
谢谢 使用解析器提取
的内容,但是有一些可能更容易使用
如果$Bookmark\u Text
是有效的HTML文档,则应该这样做
$dom = new DOMDocument();
$dom->loadHTML($Bookmark_Text);
$body = $dom->getElementsByTagName('body')->item(0);
$content = $body->ownerDocument->saveHTML($body);
下面是一些JS代码,它只提取文章并删除Instapaper的内容(例如顶部和底部栏)
html.replace(/^[\s\s]*|[^你用什么语言调用API?PHP?是的,PHP将添加到标记中。所有这些似乎都无法提取正文中的所有内容。你确定你示例中的HTML与API返回的HTML完全一致吗?我可以使用DOMDocument
创建一个示例,但因为
中包含文本,因此解析为a
并放入正文。将我的代码添加到答案中。如果返回的文档不是有效的HTML,可能您唯一的选择就是尝试使用正则表达式