fread跳过和自动启动问题

fread跳过和自动启动问题,r,data.table,fread,R,Data.table,Fread,我有以下代码: raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip) 我已尝试将其更改为: raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip, autostart = (intSkip + 2)) 根据错误消息,错误发生在第1003行。也许您可以提供示例数据,或者更具体地说,数据文件的第995行到第1005行

我有以下代码:

raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip)
我已尝试将其更改为:

raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip, autostart = (intSkip + 2))

根据错误消息,错误发生在第1003行。也许您可以提供示例数据,或者更具体地说,数据文件的第995行到第1005行?@tophcito这是一个巨大的文件(超过3gb),所以我不确定如何打开它。因为我可以很容易地读取100k行(包括“错误”的1003行),所以我不认为这是该行的问题,相反,问题可能是由于我误用了
fread
方法。错误消息表明,在1003行有一个R难以解释的字符。在我看来,这很像是一个编码问题。如果不看一行读起来没有问题的文字和第1003行文字,就有点难说了。也就是说,在调用
fread()
时,我没有发现任何明显的错误。在Linux上,
head
tail
的组合可以用来快速、难看地从文件中剪切出几行。好的,我来看看……整个1351242行的文件对我来说很好。你意识到了吗?内存不足1GB。当它非常小时,为什么要分批加载?或者这只是一个小例子。
raw_test <- fread("avito_test.tsv", nrows = intNrows, skip = intSkip, autostart = (intSkip + 2))
> packageVersion("data.table")
[1] ‘1.9.3’
> sessionInfo()
R version 3.1.0 (2014-04-10)
Platform: x86_64-w64-mingw32/x64 (64-bit)