Python 网页抓取论坛
我关心的是如何存储我试图从论坛的某些线程检索数据的数据。我希望能够绘制出我想要的尽可能多的信息,所以我不想把所有的东西都存储在一个僵硬的结构中;我希望能够使用尽可能多的信息(时区更活跃,每个用户的时区更活跃,历年关键词,海报上的点数等) 我应该如何储存这个?上层节点为页面,下层节点为帖子的树?如何以易于阅读的方式存储该树Python 网页抓取论坛,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我关心的是如何存储我试图从论坛的某些线程检索数据的数据。我希望能够绘制出我想要的尽可能多的信息,所以我不想把所有的东西都存储在一个僵硬的结构中;我希望能够使用尽可能多的信息(时区更活跃,每个用户的时区更活跃,历年关键词,海报上的点数等) 我应该如何储存这个?上层节点为页面,下层节点为帖子的树?如何以易于阅读的方式存储该树 *很简单,以一种我可以很容易导出到其他东西的格式进行封装。我建议只将帖子(为什么你会需要页面?)刮成JSON,你可以将其保存在PostgreSQL的jsonb字段中,它允许灵活
*很简单,以一种我可以很容易导出到其他东西的格式进行封装。我建议只将帖子(为什么你会需要页面?)刮成JSON,你可以将其保存在PostgreSQL的jsonb字段中,它允许灵活地查询你的JSON 稍后,您将编写一个或多个脚本,该脚本将迭代帖子,并执行有用的操作,如清理数据、规范化值、聚合统计数据等 另见
- 有人写了一篇关于