Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/android/222.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 获取reddit数据_Web Scraping_Reddit - Fatal编程技术网

Web scraping 获取reddit数据

Web scraping 获取reddit数据,web-scraping,reddit,Web Scraping,Reddit,我对从不同的reddit子reddit获取数据感兴趣。有人知道有没有像twitter一样的reddit/其他api来抓取所有页面吗?是的,reddit有一个api,可以用于各种目的,如数据收集、自动评论机器人,甚至可以帮助subreddit进行调整 有几个地方可以找到reddit API的相关信息: --提供使用reddit API的概述和规则(遵循规则) --提供访问大多数API端点所需的请求信息 --reddit社区致力于回答有关reddit源代码和reddit API的问题 如果您已经

我对从不同的reddit子reddit获取数据感兴趣。有人知道有没有像twitter一样的reddit/其他api来抓取所有页面吗?

是的,reddit有一个api,可以用于各种目的,如数据收集、自动评论机器人,甚至可以帮助subreddit进行调整

有几个地方可以找到reddit API的相关信息:

  • --提供使用reddit API的概述和规则(遵循规则)
  • --提供访问大多数API端点所需的请求信息
  • --reddit社区致力于回答有关reddit源代码和reddit API的问题

如果您已经熟悉某个特定的编程语言,那么应该查看各种语言的。尽管我有偏见(我是软件包维护者),但我非常肯定python支持最多的reddit API特性。

请注意,如果您只读取数据,而不想发回reddit,那么您可以从与每个子reddit关联的json提要中获得大量数据。使用这种方法,您根本不需要担心API——只需请求相关的json文件并用您选择的语言对其进行解析

下面是一个示例URL,它将返回一个json对象,其中包含来自JustRolledTotheShop子Reddit的热帖子:


您可以使用
hot
new
争议
代替top。使用top时,您可以将
?t=day
添加到url的末尾,以指定当天的热门帖子。其他有效值包括
小时
,或
全部
,用于使用ajax/javascript解析reddit中的JSON数据

Reddit为GET请求启用了CORS

这里作为示例,以JSON格式解析reddit的最后一个视频

xhr=newXMLHttpRequest
xhr.open(“GET”https://www.reddit.com/r/videos/.json“,对)
xhr.send(空)
xhr.onreadystatechange=函数(){
如果(this.status==200){
log(JSON.parse(xhr.responseText))
}
}