数据表fread读取包含NUL字节的Latin-1文件时出错<;0x00>;
创建可复制的示例时遇到问题,无法共享数据,但我想我在fread()中偶然发现了一个错误。尝试读取以拉丁语-1编码的1.658GB tsv文件会产生以下错误:数据表fread读取包含NUL字节的Latin-1文件时出错<;0x00>;,r,character-encoding,data.table,R,Character Encoding,Data.table,创建可复制的示例时遇到问题,无法共享数据,但我想我在fread()中偶然发现了一个错误。尝试读取以拉丁语-1编码的1.658GB tsv文件会产生以下错误: Error in fread("POANG.txt", header = TRUE, sep = "\t", sep2 = NULL, encoding = "Latin-1", : Jump 949 did not finish counting rows exactly where jump 950 found its first
Error in fread("POANG.txt", header = TRUE, sep = "\t", sep2 = NULL, encoding = "Latin-1", :
Jump 949 did not finish counting rows exactly where jump 950 found its first good line start: prevEnd(0x14e51d6dc)<<>> != thisStart(prevEnd+180966)<<4908565 01 0 1 0 1999 1 TNMAT NMAC09 015 015 15.>>
fread中的错误(“POANG.txt”,header=TRUE,sep=“\t”,sep2=NULL,encoding=“拉丁语-1”,:
跳转949未完成对跳转950找到其第一个良好行开始位置的行的精确计数:prevEnd(0x14e51d6dc)!=thisStart(prevEnd+180966)
有问题的行是第11129896行,其中有一个NUL标记,在崇高文本中写为
,在Vi中写为^@
(无法复制)。如果我设置skip=11129895
,fread会抛出相同的错误,但现在是“跳转0”,如果我设置了skip=11129896
它可以工作,但是nrows=11129895
仍然会抛出相同的错误。应该在GitHub上的v1.12.3中修复。如果你仍然拥有该文件,请再试一次。如果你真的认为你发现了一个bug,我建议将它发布到他们的GitHub,而不是stackoverflow。本来打算这样做的,但是他们在发布问题的说明中包含以下内容:“3.在上搜索和询问,并将提供问题的链接”您能否在此处复制包含坏字符的行(可能还有上一行/下一行)?如果那里有敏感信息,那么您可以用A
s替换所有字母,用1s替换所有数字。问题是,当我尝试复制它时,字符消失。现在尝试使用升华编辑文件以删除所有其他行,然后保存它,当空字符仍然存在时,fread不会抛出任何错误更多。真的很奇怪,但我猜一定是某种编码错误。