有没有办法在一定数量的块之后停止readr::read_tsv_chunked()?

有没有办法在一定数量的块之后停止readr::read_tsv_chunked()?,r,readr,R,Readr,我试图在一个大的.tsv文件上使用read_tsv_chunked(),并希望在一定数量的块之后停止 @jimhester提出了一种有用的方法,可以使用browse()::以交互方式查看给定的块,但我想编写一个函数,1)只返回感兴趣的块;2)返回块后停止读取文件 我修改了Jim的响应以返回数据块,这样我就可以将它与DataFrameCallback一起使用,但是我不知道如何在read\u tsv\u chunked()中停止读取 我目前的做法是: get_problem_chunk <-

我试图在一个大的.tsv文件上使用
read_tsv_chunked()
,并希望在一定数量的块之后停止

@jimhester提出了一种有用的方法,可以使用
browse()
::以交互方式查看给定的块,但我想编写一个函数,1)只返回感兴趣的块;2)返回块后停止读取文件

我修改了Jim的响应以返回数据块,这样我就可以将它与
DataFrameCallback一起使用,但是我不知道如何在
read\u tsv\u chunked()中停止读取

我目前的做法是:

get_problem_chunk <- function(num) {
  i <- 1
  function(x, pos) {
    if (i == num) {
      i <<- i + 1
      return(x)
    }
    i <<- i + 1
    message(pos) # to see that it's scanning the whole file
    return(NULL) # break() or error() cause errors
  }
}

write_tsv(mtcars, "mtcars.tsv")
read_tsv_chunked("mtcars.tsv", DataFrameCallback$new(get_problem_chunk(3)), chunk_size = 3)

get\u problem\u chunk由于
readr
包中的
read\u tsv\u chunked()
函数没有提供停止读取的函数,我想,也许可以使用更基本的
read\u tsv()
函数,该函数在读取n行后提供跳过和停止的可能性:

require(readr)
write.table(mtcars, "mtcars.tsv", sep = "\t", quote = FALSE)

read_tsv_chunk <- function(fpath, start.row, end.row, ...) {
  # Read read_tsv() but only from row n to m
  # For the column names, read one line:
  df.1 <- suppressWarnings(read_tsv(fpath, skip = 0, n_max = 1))
  # Then read again, from start.row to end.row, both included
  skip.row = start.row - 1
  df <- suppressWarnings((read_tsv(fpath, skip = skip.row, n_max = end.row - skip.row , ...))
  colnames(df) <- colnames(df.1)
  df
}
给出:

## Parsed with column specification:
## cols(
##   mpg = col_character(),
##   cyl = col_integer(),
##   disp = col_integer(),("mtcars.tsv", chunk_size=3, col_names = TRUE, skip = 6, g
##   hp = col_integer(),
##   drat = col_integer(),d("mtcars.tsv", chunk_size = 3, skip = 6, col_names = TRUE
##   wt = col_double(),
##   qsec = col_double(),
##   vs = col_double(),
##   am = col_integer(),
##   gear = col_integer(),
##   carb = col_integer()
## )
## Parsed with column specification:
## cols(
##   Valiant = col_character(),
##   `18.1` = col_double(),
##   `6` = col_integer(),
##   `225` = col_double(),
##   `105` = col_integer(),
##   `2.76` = col_double(),
##   `3.46` = col_double(),
##   `20.22` = col_double(),
##   `1` = col_integer(),
##   `0` = col_integer(),
##   `3` = col_integer(),
##   `1_1` = col_integer()
## )
## # A tibble: 3 x 12
##   mpg          cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb  `NA`
##   <chr>      <dbl> <int> <dbl> <int> <dbl> <dbl> <dbl> <int> <int> <int> <int>
## 1 Duster 360  14.3     8  360.   245  3.21  3.57  15.8     0     0     3     4
## 2 Merc 240D   24.4     4  147.    62  3.69  3.19  20.0     1     0     4     2
## 3 Merc 230    22.8     4  141.    95  3.92  3.15  22.9     1     0     4     2
返回所需内容:

  X18.1 X6  X225 X105 X2.76 X3.46 X20.22 X1 X0 X3 X1.1
1  14.3  8 360.0  245  3.21  3.57  15.84  0  0  3    4
2  24.4  4 146.7   62  3.69  3.19  20.00  1  0  4    2
3  22.8  4 140.8   95  3.92  3.15  22.90  1  0  4    2

@jimhester又来营救了-

您可以通过使用SideEffectCallback(这是默认值)来实现这一点
当传递一个正常函数)并使用返回结果时,使用
readr
包的原因是什么?这对你有什么好处?为什么你的col
disp
中有NA?我在发布我的问题时,通过使用
readr
标记表示我正在使用
readr
。我现在也对我的问题进行了编辑,使之更加明确。NAs源于readr分配列类型的方式—在本例中,该列的类型为
int
,值为双精度—很容易在函数调用中修复。我之所以使用
readr
,是因为我发现使用tidyverse函数而不是非tidyverse替代方法对于包或函数内的一致性非常有用。如果你愿意,你可以在这里了解更多关于readr的信息:好的,明白了。。。但是看文档,我看不到限制的方法。因此,我在上面编写了一个新函数。
## Parsed with column specification:
## cols(
##   mpg = col_character(),
##   cyl = col_integer(),
##   disp = col_integer(),("mtcars.tsv", chunk_size=3, col_names = TRUE, skip = 6, g
##   hp = col_integer(),
##   drat = col_integer(),d("mtcars.tsv", chunk_size = 3, skip = 6, col_names = TRUE
##   wt = col_double(),
##   qsec = col_double(),
##   vs = col_double(),
##   am = col_integer(),
##   gear = col_integer(),
##   carb = col_integer()
## )
## Parsed with column specification:
## cols(
##   Valiant = col_character(),
##   `18.1` = col_double(),
##   `6` = col_integer(),
##   `225` = col_double(),
##   `105` = col_integer(),
##   `2.76` = col_double(),
##   `3.46` = col_double(),
##   `20.22` = col_double(),
##   `1` = col_integer(),
##   `0` = col_integer(),
##   `3` = col_integer(),
##   `1_1` = col_integer()
## )
## # A tibble: 3 x 12
##   mpg          cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb  `NA`
##   <chr>      <dbl> <int> <dbl> <int> <dbl> <dbl> <dbl> <int> <int> <int> <int>
## 1 Duster 360  14.3     8  360.   245  3.21  3.57  15.8     0     0     3     4
## 2 Merc 240D   24.4     4  147.    62  3.69  3.19  20.0     1     0     4     2
## 3 Merc 230    22.8     4  141.    95  3.92  3.15  22.9     1     0     4     2
df <- read_tsv_chunked("mtcars.tsv", chunk_size = 3, skip = 6, col_names = TRUE, guess_max = 3)
df

## # A tibble: 3 x 12
##   mpg          cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb  `NA`
##   <chr>      <dbl> <int> <dbl> <int> <dbl> <dbl> <dbl> <int> <int> <int> <int>
## 1 Duster 360  14.3     8  360.   245  3.21  3.57  15.8     0     0     3     4
## 2 Merc 240D   24.4     4  147.    62  3.69  3.19  20.0     1     0     4     2
## 3 Merc 230    22.8     4  141.    95  3.92  3.15  22.9     1     0     4     2
read.table(file, header = TRUE, sep = "\t", quote = "\"", 
    dec = ".", fill = TRUE, comment.char = "#", nrow = 3, skip = 2 * 3)
  X18.1 X6  X225 X105 X2.76 X3.46 X20.22 X1 X0 X3 X1.1
1  14.3  8 360.0  245  3.21  3.57  15.84  0  0  3    4
2  24.4  4 146.7   62  3.69  3.19  20.00  1  0  4    2
3  22.8  4 140.8   95  3.92  3.15  22.90  1  0  4    2
library(readr)

get_problem_chunk <- function(num) {
  i <- 1
  function(x, pos) {
    if (i == num) {
      res <<- x
      return(FALSE)
    }
    i <<- i + 1
 }
}

write_tsv(mtcars, "mtcars.tsv")
read_tsv_chunked("mtcars.tsv", get_problem_chunk(3), chunk_size = 2, col_types = cols())
#> NULL
res
#> # A tibble: 2 x 11
#>     mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
#>   <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
#> 1  18.7     8   360   175  3.15  3.44  17.0     0     0     3     2
#> 2  18.1     6   225   105  2.76  3.46  20.2     1     0     3     1