Python 网页抓取论坛

Python 网页抓取论坛,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我关心的是如何存储我试图从论坛的某些线程检索数据的数据。我希望能够绘制出我想要的尽可能多的信息,所以我不想把所有的东西都存储在一个僵硬的结构中;我希望能够使用尽可能多的信息(时区更活跃,每个用户的时区更活跃,历年关键词,海报上的点数等) 我应该如何储存这个?上层节点为页面,下层节点为帖子的树?如何以易于阅读的方式存储该树 *很简单,以一种我可以很容易导出到其他东西的格式进行封装。我建议只将帖子(为什么你会需要页面?)刮成JSON,你可以将其保存在PostgreSQL的jsonb字段中,它允许灵活

我关心的是如何存储我试图从论坛的某些线程检索数据的数据。我希望能够绘制出我想要的尽可能多的信息,所以我不想把所有的东西都存储在一个僵硬的结构中;我希望能够使用尽可能多的信息(时区更活跃,每个用户的时区更活跃,历年关键词,海报上的点数等)

我应该如何储存这个?上层节点为页面,下层节点为帖子的树?如何以易于阅读的方式存储该树


*很简单,以一种我可以很容易导出到其他东西的格式进行封装。

我建议只将帖子(为什么你会需要页面?)刮成JSON,你可以将其保存在PostgreSQL的jsonb字段中,它允许灵活地查询你的JSON

稍后,您将编写一个或多个脚本,该脚本将迭代帖子,并执行有用的操作,如清理数据、规范化值、聚合统计数据等

另见
  • 有人写了一篇关于

在存储页面时,我指的是跟踪帖子的页面(即这些或那些单词出现在哪些页面),而不是页面的全部源代码。在来到这里之前,我一直在考虑xml或json,但我不确定它是否。。。这是一种“自然”的方式。非常感谢。是的,如果与XML相比,我会说一定要使用JSON。也有YAML,但它在PostgreSQL、Mongo和其他方面没有特别的支持。至于封装页面和帖子之间的关系,我仍然不确定页面背后的想法。但是,假设页面“包含”主机,您可以在每个页面对象({page_id:…,posts:[])中嵌入一个包含的帖子列表,根据需要,可能只有一部分帖子数据;你仍然可以保留一个单独的帖子索引,例如,通过他们的ID。当然,这是一个小小的性能冲击,但可能还不够大,不足以引起人们的关注。很可笑的是,仅仅因为一提到刮擦,人们就投了反对票/投票来结束这个问题。在缺少API的情况下进行抓取,推动了各种被视为共同利益的举措。想一想,回答另一个人的天真JavaScript问题可以让他们用自己的应用程序做一些坏事。