Python 网页抓取论坛_Python_Web Scraping_Beautifulsoup

Python 网页抓取论坛

python web-scraping

Python 网页抓取论坛,python,web-scraping,beautifulsoup,Python,Web Scraping,Beautifulsoup,我关心的是如何存储我试图从论坛的某些线程检索数据的数据。我希望能够绘制出我想要的尽可能多的信息，所以我不想把所有的东西都存储在一个僵硬的结构中；我希望能够使用尽可能多的信息（时区更活跃，每个用户的时区更活跃，历年关键词，海报上的点数等）我应该如何储存这个？上层节点为页面，下层节点为帖子的树？如何以易于阅读的方式存储该树 *很简单，以一种我可以很容易导出到其他东西的格式进行封装。我建议只将帖子（为什么你会需要页面？）刮成JSON，你可以将其保存在PostgreSQL的jsonb字段中，它允许灵活

我关心的是如何存储我试图从论坛的某些线程检索数据的数据。我希望能够绘制出我想要的尽可能多的信息，所以我不想把所有的东西都存储在一个僵硬的结构中；我希望能够使用尽可能多的信息（时区更活跃，每个用户的时区更活跃，历年关键词，海报上的点数等）

我应该如何储存这个？上层节点为页面，下层节点为帖子的树？如何以易于阅读的方式存储该树

*很简单，以一种我可以很容易导出到其他东西的格式进行封装。

我建议只将帖子（为什么你会需要页面？）刮成JSON，你可以将其保存在PostgreSQL的jsonb字段中，它允许灵活地查询你的JSON

稍后，您将编写一个或多个脚本，该脚本将迭代帖子，并执行有用的操作，如清理数据、规范化值、聚合统计数据等

另见

有人写了一篇关于

在存储页面时，我指的是跟踪帖子的页面（即这些或那些单词出现在哪些页面），而不是页面的全部源代码。在来到这里之前，我一直在考虑xml或json，但我不确定它是否。。。这是一种“自然”的方式。非常感谢。是的，如果与XML相比，我会说一定要使用JSON。也有YAML，但它在PostgreSQL、Mongo和其他方面没有特别的支持。至于封装页面和帖子之间的关系，我仍然不确定页面背后的想法。但是，假设页面“包含”主机，您可以在每个页面对象（{page_id:…，posts:[]）中嵌入一个包含的帖子列表，根据需要，可能只有一部分帖子数据；你仍然可以保留一个单独的帖子索引，例如，通过他们的ID。当然，这是一个小小的性能冲击，但可能还不够大，不足以引起人们的关注。很可笑的是，仅仅因为一提到刮擦，人们就投了反对票/投票来结束这个问题。在缺少API的情况下进行抓取，推动了各种被视为共同利益的举措。想一想，回答另一个人的天真JavaScript问题可以让他们用自己的应用程序做一些坏事。