Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/php/288.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Php 基于Diffbot的HTML内容提取_Php_Html_Json_Web Scraping_Diffbot - Fatal编程技术网

Php 基于Diffbot的HTML内容提取

Php 基于Diffbot的HTML内容提取,php,html,json,web-scraping,diffbot,Php,Html,Json,Web Scraping,Diffbot,有人能帮我提取html数据吗。我已经找到了一个服务,它们通过一个简单的api支持数据提取,问题是我有大量的url需要处理。下面的链接 我需要创建一个遵循url的脚本,然后使用api生成html数据的json格式(来自站点的api允许批量请求检查站点文档) 请注意diffbot每月只允许10000个免费请求,因此我需要一种方法来保存进度,并能够从我中断的地方继续 下面是我使用php创建的一个示例 $token = "dfoidjhku";// example token $url = "http:

有人能帮我提取html数据吗。我已经找到了一个服务,它们通过一个简单的api支持数据提取,问题是我有大量的url需要处理。下面的链接

我需要创建一个遵循url的脚本,然后使用api生成html数据的json格式(来自站点的api允许批量请求检查站点文档)

请注意diffbot每月只允许10000个免费请求,因此我需要一种方法来保存进度,并能够从我中断的地方继续

下面是我使用php创建的一个示例

$token = "dfoidjhku";// example token
$url = "http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html";
$geturl="http://www.diffbot.com/api/article?tags=1&token=".$token."&url=".$url;
$json = file_get_contents($geturl);
$data = json_decode($json, TRUE);
echo $article_title=$data['title'];
echo $article_author=$data['author'];
echo $article_date=$data['date'];
echo nl2br($article_text=$data['text']);
$article_tags=$data['tags'];
foreach($article_tags as $result) {
    echo $result, '<br>';
}
$token=“dfoidjhku”//示例令牌
$url=”http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html";
$geturl=”http://www.diffbot.com/api/article?tags=1&token=“$token.”&url=“..$url;
$json=file\u get\u contents($geturl);
$data=json_decode($json,TRUE);
echo$article_title=$data['title'];
echo$article_author=$data['author'];
echo$article_date=$data['date'];
echo nl2br($article_text=$data['text']);
$article_tags=$data['tags'];
foreach($article\u标记为$result){
回显$result,“
”; }

我不介意工具是javascript还是php,我只需要一种方法来获取json格式的html数据

来自Diffbot的约翰。注意:不是开发人员,但知道足够多的知识来编写黑客代码来做简单的事情

您有一个链接列表——遍历这些链接应该很简单,并为每个链接打电话给我们

下面是一个Python脚本,它可以执行以下操作:

我使用升华文本中的快速搜索正则表达式从JS文件中提取链接

要截断它,只需剪切一些链接,然后运行它。这将需要一段时间,因为我没有使用批处理API


如果您需要改进或改变这一点,最好直接找一个更强大的开发人员。Diffbot是一个开发人员友好的工具。

您好,谢谢您的代码,唯一的问题是我不知道如何使用python,您是否有可能创建一个php版本的脚本,您好,谢谢--对不起,我只能这样做了。我相信一些PHP指南将很容易帮助您复制这一点。祝你好运