用R

用R,r,web-scraping,steam,review,R,Web Scraping,Steam,Review,我很难做我想做的事情,那就是:从Steam评论中获取所有数据。我目前在视频游戏的前期制作,我想做一些文本挖掘的用户评论的游戏站在我们附近的游戏方面 我正在使用Rvest这样做 2个问题: -我无法找到一种方法将评论与发布日期分开。我想把它们分开放在不同的柱子里。我怎么能这么做? -它工作得很好,但是。。。我的数据框中只有10条评论。我怎样才能获得全部评论?(我花了几个小时试图理解我是如何做到这一点的,但这似乎是不可能的,因为如果我理解正确的话,steam每次进入网站底部时都会使用javascri

我很难做我想做的事情,那就是:从Steam评论中获取所有数据。我目前在视频游戏的前期制作,我想做一些文本挖掘的用户评论的游戏站在我们附近的游戏方面

我正在使用Rvest这样做

2个问题: -我无法找到一种方法将评论与发布日期分开。我想把它们分开放在不同的柱子里。我怎么能这么做? -它工作得很好,但是。。。我的数据框中只有10条评论。我怎样才能获得全部评论?(我花了几个小时试图理解我是如何做到这一点的,但这似乎是不可能的,因为如果我理解正确的话,steam每次进入网站底部时都会使用javascript注入,而rvest在读取链接时不会这样做

这是我的密码:

#install.packages("rvest")
library(rvest)

link <- "https://steamcommunity.com/app/215080/reviews/"

review <- read_html(link) %>%
  html_nodes("div.apphub_CardTextContent") %>%
  html_text()

opinion <- read_html(link) %>%
  html_nodes("div.title") %>%
  html_text()

hoursplayed <- read_html(link) %>%
  html_nodes("div.hours") %>%
  html_text()

helpful <- read_html(link) %>%
  html_nodes("div.found_helpful") %>%
  html_text()

date <- read_html(link) %>%
  html_nodes("div.date_posted") %>%
  html_text()

tab <- data.frame("Posted" = date, "Review" = review, "Opinion" = opinion, "Hours Played" = hoursplayed, "Number of helpful vote" = helpful)

#安装程序包(“rvest”)
图书馆(rvest)
链接%
html_text()
意见%
html_节点(“div.title”)%>%
html_text()
播放小时数%
html_节点(“div.hours”)%>%
html_text()
有用%
html_节点(“div.found_help”)%>%
html_text()
日期%
html_节点(“div.date_posted”)%>%
html_text()

tab在你发布的url上只有10条评论吗?如果你发送了你试图抓取的日期的html,可能会有所帮助。我用python和BeautifulSoup做过这件事,从来没有用过R。看起来Steam允许API访问评论:使用它可能比抓取容易得多,特别是在有奇怪的javascript的情况下。我不了解如何在R中使用Steam API。请详细说明它是如何工作的,或者给我一个教程。请尝试阅读API文档,然后在遇到问题时发布。您可能会发现它有使用R的示例。您也可能会发现没有满足您需求/资源的服务。
httr
是一个很好的起点。看起来也不错