Php 基于Diffbot的HTML内容提取_Php_Html_Json_Web Scraping_Diffbot

Php 基于Diffbot的HTML内容提取

php html json web-scraping

Php 基于Diffbot的HTML内容提取,php,html,json,web-scraping,diffbot,Php,Html,Json,Web Scraping,Diffbot,有人能帮我提取html数据吗。我已经找到了一个服务，它们通过一个简单的api支持数据提取，问题是我有大量的url需要处理。下面的链接我需要创建一个遵循url的脚本，然后使用api生成html数据的json格式（来自站点的api允许批量请求检查站点文档）请注意diffbot每月只允许10000个免费请求，因此我需要一种方法来保存进度，并能够从我中断的地方继续下面是我使用php创建的一个示例 $token = "dfoidjhku";// example token $url = "http:

有人能帮我提取html数据吗。我已经找到了一个服务，它们通过一个简单的api支持数据提取，问题是我有大量的url需要处理。下面的链接

我需要创建一个遵循url的脚本，然后使用api生成html数据的json格式（来自站点的api允许批量请求检查站点文档）

请注意diffbot每月只允许10000个免费请求，因此我需要一种方法来保存进度，并能够从我中断的地方继续

下面是我使用php创建的一个示例

$token = "dfoidjhku";// example token
$url = "http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html";
$geturl="http://www.diffbot.com/api/article?tags=1&token=".$token."&url=".$url;
$json = file_get_contents($geturl);
$data = json_decode($json, TRUE);
echo $article_title=$data['title'];
echo $article_author=$data['author'];
echo $article_date=$data['date'];
echo nl2br($article_text=$data['text']);
$article_tags=$data['tags'];
foreach($article_tags as $result) {
    echo $result, '<br>';
}

$token=“dfoidjhku”//示例令牌
$url=”http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html";
$geturl=”http://www.diffbot.com/api/article?tags=1&token=“$token.”&url=“..$url；
$json=file\u get\u contents（$geturl）；
$data=json_decode（$json，TRUE）；
echo$article_title=$data['title']；
echo$article_author=$data['author']；
echo$article_date=$data['date']；
echo nl2br（$article_text=$data['text']）；
$article_tags=$data['tags']；
foreach（$article\u标记为$result）{
回显$result，“
”；
}

我不介意工具是javascript还是php，我只需要一种方法来获取json格式的html数据

来自Diffbot的约翰。注意：不是开发人员，但知道足够多的知识来编写黑客代码来做简单的事情

您有一个链接列表——遍历这些链接应该很简单，并为每个链接打电话给我们

下面是一个Python脚本，它可以执行以下操作：

我使用升华文本中的快速搜索正则表达式从JS文件中提取链接

要截断它，只需剪切一些链接，然后运行它。这将需要一段时间，因为我没有使用批处理API

如果您需要改进或改变这一点，最好直接找一个更强大的开发人员。Diffbot是一个开发人员友好的工具。

您好，谢谢您的代码，唯一的问题是我不知道如何使用python，您是否有可能创建一个php版本的脚本，您好，谢谢--对不起，我只能这样做了。我相信一些PHP指南将很容易帮助您复制这一点。祝你好运