Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/powerbi/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何将网站中的表格数据刮到R中?_R_Dataframe_Web Scraping_Tableau Api_Python - Fatal编程技术网

如何将网站中的表格数据刮到R中?

如何将网站中的表格数据刮到R中?,r,dataframe,web-scraping,tableau-api,python,R,Dataframe,Web Scraping,Tableau Api,Python,我正在从事一个项目,目前需要我每天访问此网站(),并手动将每一天的日期和UVA阳性病例值添加到数据框中。我是否可以在R中运行一个代码,创建date和UVA阳性病例的数据框,而不必每天手动添加新数据?我知道有,但这是我不熟悉的python。查找rvest/xml2以获取可解析的HTML。不幸的是,对于Tableau/PowerBI应用程序,这并不是直接的。对于这样带有内置对象的页面,最好访问底层数据 你强调的另一个答案是正确的。获取JSON格式的数据(通常来自API请求)并提取所需的值。但是,您会

我正在从事一个项目,目前需要我每天访问此网站(),并手动将每一天的
日期
UVA阳性病例
值添加到数据框中。我是否可以在R中运行一个代码,创建
date
UVA阳性病例的数据框,而不必每天手动添加新数据?我知道有,但这是我不熟悉的python。

查找rvest/xml2以获取可解析的HTML。不幸的是,对于Tableau/PowerBI应用程序,这并不是直接的。对于这样带有内置对象的页面,最好访问底层数据

你强调的另一个答案是正确的。获取JSON格式的数据(通常来自API请求)并提取所需的值。但是,您会发现另一个问题是会话ID不是持久的。当您访问页面的URL时,可能需要捕获所有XHR对象,然后通过一些混乱的逻辑来识别正确的对象

(如果需要查看页面访问中访问的所有资源,请在浏览器中按F12,然后转到“网络”选项卡。)

在这个阶段,询问Tableau作者API是否公开,或者他们是否可以在报告中提供数据集下载功能,可能不会有什么坏处


祝你好运。

查找rvest/xml2以获取可解析的HTML。不幸的是,对于Tableau/PowerBI应用程序,这并不是直接的。对于这样带有内置对象的页面,最好访问底层数据

你强调的另一个答案是正确的。获取JSON格式的数据(通常来自API请求)并提取所需的值。但是,您会发现另一个问题是会话ID不是持久的。当您访问页面的URL时,可能需要捕获所有XHR对象,然后通过一些混乱的逻辑来识别正确的对象

(如果需要查看页面访问中访问的所有资源,请在浏览器中按F12,然后转到“网络”选项卡。)

在这个阶段,询问Tableau作者API是否公开,或者他们是否可以在报告中提供数据集下载功能,可能不会有什么坏处


祝你好运。

你需要获得表格URL,它是:

从这里开始,您需要执行以下流程(与相同):

  • 调用以下url:

    GET https://public.tableau.com/views/S07StuP58/Dashboard1?:embed=y&:showVizHome=no
    
  • 使用id
    tsConfigContainer从
    textarea
    提取JSON内容

  • 使用会话id生成url

    POST https://public.tableau.com/{vizql_path}/bootstrapSession/sessions/{session_id}
    
  • 从最初不是JSON的响应中提取JSON数据(使用正则表达式分割数据)

  • 从大型JSON配置中提取数据,这并不简单,因为所有字符串数据都位于单个数组中。您需要从各个字段获取数据索引,以便能够将数据拆分为列,然后构建数据框架

此视图上有许多“工作表”,因此我制作了一个脚本,提示用户选择一个,以便您可以检查哪一个对您更方便:

library(rvest)
library(rjson)
library(httr)
library(stringr)

#replace the hostname and the path if necessary
host_url <- "https://public.tableau.com"
path <- "/views/UVACOVIDTracker/Summary"

body <- read_html(modify_url(host_url, 
                             path = path, 
                             query = list(":embed" = "y",":showVizHome" = "no")
))

data <- body %>% 
  html_nodes("textarea#tsConfigContainer") %>% 
  html_text()
json <- fromJSON(data)

url <- modify_url(host_url, path = paste(json$vizql_root, "/bootstrapSession/sessions/", json$sessionid, sep =""))

resp <- POST(url, body = list(sheet_id = json$sheetId), encode = "form")
data <- content(resp, "text")

extract <- str_match(data, "\\d+;(\\{.*\\})\\d+;(\\{.*\\})")
info <- fromJSON(extract[1,1])
data <- fromJSON(extract[1,3])

worksheets = names(data$secondaryInfo$presModelMap$vizData$presModelHolder$genPresModelMapPresModel$presModelMap)

for(i in 1:length(worksheets)){
  print(paste("[",i,"] ",worksheets[i], sep=""))
}
selected <-  readline(prompt="select worksheet by index: ");
worksheet <- worksheets[as.integer(selected)]
print(paste("you selected :", worksheet, sep=" "))

columnsData <- data$secondaryInfo$presModelMap$vizData$presModelHolder$genPresModelMapPresModel$presModelMap[[worksheet]]$presModelHolder$genVizDataPresModel$paneColumnsData

i <- 1
result <- list();
for(t in columnsData$vizDataColumns){
  if (is.null(t[["fieldCaption"]]) == FALSE) {
    paneIndex <- t$paneIndices
    columnIndex <- t$columnIndices
    if (length(t$paneIndices) > 1){
      paneIndex <- t$paneIndices[1]
    }
    if (length(t$columnIndices) > 1){
      columnIndex <- t$columnIndices[1]
    }
    result[[i]] <- list(
      fieldCaption = t[["fieldCaption"]], 
      valueIndices = columnsData$paneColumnsList[[paneIndex + 1]]$vizPaneColumns[[columnIndex + 1]]$valueIndices,
      aliasIndices = columnsData$paneColumnsList[[paneIndex + 1]]$vizPaneColumns[[columnIndex + 1]]$aliasIndices, 
      dataType = t[["dataType"]],
      stringsAsFactors = FALSE
    )
    i <- i + 1
  }
}
dataFull = data$secondaryInfo$presModelMap$dataDictionary$presModelHolder$genDataDictionaryPresModel$dataSegments[["0"]]$dataColumns

cstring <- list();
for(t in dataFull) {
  if(t$dataType == "cstring"){
    cstring <- t
    break
  }
}
data_index <- 1
name_index <- 1
frameData <-  list()
frameNames <- c()
for(t in dataFull) {
  for(index in result) {
    if (t$dataType == index["dataType"]){
      if (length(index$valueIndices) > 0) {
        j <- 1
        vector <- character(length(index$valueIndices))
        for (it in index$valueIndices){
          vector[j] <- t$dataValues[it+1]
          j <- j + 1
        }
        frameData[[data_index]] <- vector
        frameNames[[name_index]] <- paste(index$fieldCaption, "value", sep="-")
        data_index <- data_index + 1
        name_index <- name_index + 1
      }
      if (length(index$aliasIndices) > 0) {
        j <- 1
        vector <- character(length(index$aliasIndices))
        for (it in index$aliasIndices){
          if (it >= 0){
            vector[j] <- t$dataValues[it+1]
          } else {
            vector[j] <- cstring$dataValues[abs(it)]
          }
          j <- j + 1
        }
        frameData[[data_index]] <- vector
        frameNames[[name_index]] <- paste(index$fieldCaption, "alias", sep="-")
        data_index <- data_index + 1
        name_index <- name_index + 1
      }
    }
  }
}

df <- NULL
lengthList <- c()
for(i in 1:length(frameNames)){
  lengthList[i] <- length(frameData[[i]])
}
max <- max(lengthList)
for(i in 1:length(frameNames)){
  if (length(frameData[[i]]) < max){
    len <- length(frameData[[i]])
    frameData[[i]][(len+1):max]<-""
  }
  df[frameNames[[i]]] <- frameData[i]
}
options(width = 1200)
df <- as.data.frame(df, stringsAsFactors = FALSE)
print(df)
我不知道工作表会是“Pos所有UVA计数行”和“Pos学生计数行”

同样的脚本是用以下语言编写的:

编辑:我改进了脚本,以包含别名值,从而提供更多数据


我已经制作了一个包含Python和R脚本的repo,您需要获取tableau URL,它是:

从这里开始,您需要执行以下流程(与相同):

  • 调用以下url:

    GET https://public.tableau.com/views/S07StuP58/Dashboard1?:embed=y&:showVizHome=no
    
  • 使用id
    tsConfigContainer从
    textarea
    提取JSON内容

  • 使用会话id生成url

    POST https://public.tableau.com/{vizql_path}/bootstrapSession/sessions/{session_id}
    
  • 从最初不是JSON的响应中提取JSON数据(使用正则表达式分割数据)

  • 从大型JSON配置中提取数据,这并不简单,因为所有字符串数据都位于单个数组中。您需要从各个字段获取数据索引,以便能够将数据拆分为列,然后构建数据框架

此视图上有许多“工作表”,因此我制作了一个脚本,提示用户选择一个,以便您可以检查哪一个对您更方便:

library(rvest)
library(rjson)
library(httr)
library(stringr)

#replace the hostname and the path if necessary
host_url <- "https://public.tableau.com"
path <- "/views/UVACOVIDTracker/Summary"

body <- read_html(modify_url(host_url, 
                             path = path, 
                             query = list(":embed" = "y",":showVizHome" = "no")
))

data <- body %>% 
  html_nodes("textarea#tsConfigContainer") %>% 
  html_text()
json <- fromJSON(data)

url <- modify_url(host_url, path = paste(json$vizql_root, "/bootstrapSession/sessions/", json$sessionid, sep =""))

resp <- POST(url, body = list(sheet_id = json$sheetId), encode = "form")
data <- content(resp, "text")

extract <- str_match(data, "\\d+;(\\{.*\\})\\d+;(\\{.*\\})")
info <- fromJSON(extract[1,1])
data <- fromJSON(extract[1,3])

worksheets = names(data$secondaryInfo$presModelMap$vizData$presModelHolder$genPresModelMapPresModel$presModelMap)

for(i in 1:length(worksheets)){
  print(paste("[",i,"] ",worksheets[i], sep=""))
}
selected <-  readline(prompt="select worksheet by index: ");
worksheet <- worksheets[as.integer(selected)]
print(paste("you selected :", worksheet, sep=" "))

columnsData <- data$secondaryInfo$presModelMap$vizData$presModelHolder$genPresModelMapPresModel$presModelMap[[worksheet]]$presModelHolder$genVizDataPresModel$paneColumnsData

i <- 1
result <- list();
for(t in columnsData$vizDataColumns){
  if (is.null(t[["fieldCaption"]]) == FALSE) {
    paneIndex <- t$paneIndices
    columnIndex <- t$columnIndices
    if (length(t$paneIndices) > 1){
      paneIndex <- t$paneIndices[1]
    }
    if (length(t$columnIndices) > 1){
      columnIndex <- t$columnIndices[1]
    }
    result[[i]] <- list(
      fieldCaption = t[["fieldCaption"]], 
      valueIndices = columnsData$paneColumnsList[[paneIndex + 1]]$vizPaneColumns[[columnIndex + 1]]$valueIndices,
      aliasIndices = columnsData$paneColumnsList[[paneIndex + 1]]$vizPaneColumns[[columnIndex + 1]]$aliasIndices, 
      dataType = t[["dataType"]],
      stringsAsFactors = FALSE
    )
    i <- i + 1
  }
}
dataFull = data$secondaryInfo$presModelMap$dataDictionary$presModelHolder$genDataDictionaryPresModel$dataSegments[["0"]]$dataColumns

cstring <- list();
for(t in dataFull) {
  if(t$dataType == "cstring"){
    cstring <- t
    break
  }
}
data_index <- 1
name_index <- 1
frameData <-  list()
frameNames <- c()
for(t in dataFull) {
  for(index in result) {
    if (t$dataType == index["dataType"]){
      if (length(index$valueIndices) > 0) {
        j <- 1
        vector <- character(length(index$valueIndices))
        for (it in index$valueIndices){
          vector[j] <- t$dataValues[it+1]
          j <- j + 1
        }
        frameData[[data_index]] <- vector
        frameNames[[name_index]] <- paste(index$fieldCaption, "value", sep="-")
        data_index <- data_index + 1
        name_index <- name_index + 1
      }
      if (length(index$aliasIndices) > 0) {
        j <- 1
        vector <- character(length(index$aliasIndices))
        for (it in index$aliasIndices){
          if (it >= 0){
            vector[j] <- t$dataValues[it+1]
          } else {
            vector[j] <- cstring$dataValues[abs(it)]
          }
          j <- j + 1
        }
        frameData[[data_index]] <- vector
        frameNames[[name_index]] <- paste(index$fieldCaption, "alias", sep="-")
        data_index <- data_index + 1
        name_index <- name_index + 1
      }
    }
  }
}

df <- NULL
lengthList <- c()
for(i in 1:length(frameNames)){
  lengthList[i] <- length(frameData[[i]])
}
max <- max(lengthList)
for(i in 1:length(frameNames)){
  if (length(frameData[[i]]) < max){
    len <- length(frameData[[i]])
    frameData[[i]][(len+1):max]<-""
  }
  df[frameNames[[i]]] <- frameData[i]
}
options(width = 1200)
df <- as.data.frame(df, stringsAsFactors = FALSE)
print(df)
我不知道工作表会是“Pos所有UVA计数行”和“Pos学生计数行”

同样的脚本是用以下语言编写的:

编辑:我改进了脚本,以包含别名值,从而提供更多数据

我已经做了一个repo,包括Python和R脚本