Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/wix/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Web scraping 获取随机Tumblr博客/帖子_Web Scraping_Tumblr_Pytumblr - Fatal编程技术网

Web scraping 获取随机Tumblr博客/帖子

Web scraping 获取随机Tumblr博客/帖子,web-scraping,tumblr,pytumblr,Web Scraping,Tumblr,Pytumblr,我正在为一个班级做一个数据挖掘项目,我们项目的一部分涉及从Tumblr获取大量随机帖子。不幸的是,tumblrapi(特别是使用PyTumblr)似乎没有直接的能力来实现这一点,因为它需要特定的blog名称或标记。有什么合理的方法可以做到这一点吗?我的最佳想法是从Trending上的帖子中获取博客名称和/或标签,但我不确定这是否足以满足我们的目的。我们最终想要的是一个数据集,它可以被划分为使用指定集中的一个或多个标记进行标记的帖子,以及不包含这些标记的帖子。什么博客,我不确定Tumblr是否提供

我正在为一个班级做一个数据挖掘项目,我们项目的一部分涉及从Tumblr获取大量随机帖子。不幸的是,tumblrapi(特别是使用PyTumblr)似乎没有直接的能力来实现这一点,因为它需要特定的blog名称或标记。有什么合理的方法可以做到这一点吗?我的最佳想法是从Trending上的帖子中获取博客名称和/或标签,但我不确定这是否足以满足我们的目的。我们最终想要的是一个数据集,它可以被划分为使用指定集中的一个或多个标记进行标记的帖子,以及不包含这些标记的帖子。

什么博客,我不确定Tumblr是否提供了一个简单的界面,但是对于来自博客的随机帖子,您可以导航到{BlogURL}/random@AdamAzad来自随机博客的随机帖子。我对博客的名字没有先见之明,因为那会破坏随机抽样的目的。另外,我开始怀疑Tumblr是否提供了一个简单的方法。你去过吗?您可以对其进行爬网。@AdamAzad,但它显示了个性化的建议。只是要记住一些东西。@AdamAzad只是重定向到趋势。什么博客,我不确定Tumblr是否提供了一个简单的界面,但是对于来自博客的随机帖子,您可以导航到{BlogURL}/random@AdamAzad来自随机博客的随机帖子。我对博客的名字没有先见之明,因为那会破坏随机抽样的目的。另外,我开始怀疑Tumblr是否提供了一个简单的方法。你去过吗?您可以对其进行爬网。@AdamAzad,但它显示了个性化的建议。阿达马扎德只是重新定位到趋势。