Web scraping 获取随机Tumblr博客/帖子
我正在为一个班级做一个数据挖掘项目,我们项目的一部分涉及从Tumblr获取大量随机帖子。不幸的是,tumblrapi(特别是使用PyTumblr)似乎没有直接的能力来实现这一点,因为它需要特定的blog名称或标记。有什么合理的方法可以做到这一点吗?我的最佳想法是从Trending上的帖子中获取博客名称和/或标签,但我不确定这是否足以满足我们的目的。我们最终想要的是一个数据集,它可以被划分为使用指定集中的一个或多个标记进行标记的帖子,以及不包含这些标记的帖子。什么博客,我不确定Tumblr是否提供了一个简单的界面,但是对于来自博客的随机帖子,您可以导航到{BlogURL}/random@AdamAzad来自随机博客的随机帖子。我对博客的名字没有先见之明,因为那会破坏随机抽样的目的。另外,我开始怀疑Tumblr是否提供了一个简单的方法。你去过吗?您可以对其进行爬网。@AdamAzad,但它显示了个性化的建议。只是要记住一些东西。@AdamAzad只是重定向到趋势。什么博客,我不确定Tumblr是否提供了一个简单的界面,但是对于来自博客的随机帖子,您可以导航到{BlogURL}/random@AdamAzad来自随机博客的随机帖子。我对博客的名字没有先见之明,因为那会破坏随机抽样的目的。另外,我开始怀疑Tumblr是否提供了一个简单的方法。你去过吗?您可以对其进行爬网。@AdamAzad,但它显示了个性化的建议。阿达马扎德只是重新定位到趋势。Web scraping 获取随机Tumblr博客/帖子,web-scraping,tumblr,pytumblr,Web Scraping,Tumblr,Pytumblr,我正在为一个班级做一个数据挖掘项目,我们项目的一部分涉及从Tumblr获取大量随机帖子。不幸的是,tumblrapi(特别是使用PyTumblr)似乎没有直接的能力来实现这一点,因为它需要特定的blog名称或标记。有什么合理的方法可以做到这一点吗?我的最佳想法是从Trending上的帖子中获取博客名称和/或标签,但我不确定这是否足以满足我们的目的。我们最终想要的是一个数据集,它可以被划分为使用指定集中的一个或多个标记进行标记的帖子,以及不包含这些标记的帖子。什么博客,我不确定Tumblr是否提供