Web scraping 我们可以从博客或论坛中提取什么样的数据来进行网页清理项目?

Web scraping 我们可以从博客或论坛中提取什么样的数据来进行网页清理项目?,web-scraping,web-crawler,Web Scraping,Web Crawler,我将要做一个关于“分析博客或论坛中的数据”的项目,所以我想知道我们可以从博客或论坛中提取什么样的数据,以及我应该如何开始。首先,你应该决定使用哪种编程语言。然后,你应该考虑使用网络刮刀。 对于不同的编程语言有不同的方法。例如,对于Java,有一个例子 对于什么样的数据可以获得,你必须首先考虑页面的格式。但我建议收集的数据包括: 用户名 网站上的照片 与用户名相关的数据(加入日期、帖子数量、高级会员状态、照片、电话号码、电子邮件地址、全名、地址等(如适用)), 博客帖子的标题, 论坛上提出的问题,

我将要做一个关于“分析博客或论坛中的数据”的项目,所以我想知道我们可以从博客或论坛中提取什么样的数据,以及我应该如何开始。首先,你应该决定使用哪种编程语言。然后,你应该考虑使用网络刮刀。

对于不同的编程语言有不同的方法。例如,对于Java,有一个例子

对于什么样的数据可以获得,你必须首先考虑页面的格式。但我建议收集的数据包括:

用户名 网站上的照片 与用户名相关的数据(加入日期、帖子数量、高级会员状态、照片、电话号码、电子邮件地址、全名、地址等(如适用)), 博客帖子的标题, 论坛上提出的问题, 每个问题的答案数量, 博客文章中的拼写错误,
与日期相关的信息。

您的问题可能很有趣,但具体细节却非常模糊。这是关于一个博客还是所有的博客?您是在寻找工具集还是现有项目?也许从开始?我说的是一般的博客,想找一个工具集,谢谢你,你正朝着相反的方向解决问题。与其寻找某种类型的数据,不如修复您想了解的内容。然后从博客中收集所需的数据。