R 修改巨大字符向量后读取文字数据

R 修改巨大字符向量后读取文字数据,r,tidyverse,readr,R,Tidyverse,Readr,我有许多管道分隔的文件,其中一些非常大(很多GB),有缺陷。有人错误地漏掉了一个字段和一个分隔符,但只漏掉了部分行 我想使用read\u lines将每个文件作为字符串向量读取,然后应用count.fields(是否有tidyverse版本?)将行按标记数拆分为两个字符串向量。(我必须删除其中一个向量中的最后一个字符串)。在所有这些操作之后,我想使用read_delim两次来解析具有不同分隔符数的行集。我怎样才能愚弄read\u delim读取字符串的每个向量而不做任何修改?或者,我唯一的解决方

我有许多管道分隔的文件,其中一些非常大(很多GB),有缺陷。有人错误地漏掉了一个字段和一个分隔符,但只漏掉了部分行

我想使用
read\u lines
将每个文件作为字符串向量读取,然后应用
count.fields
(是否有tidyverse版本?)将行按标记数拆分为两个字符串向量。(我必须删除其中一个向量中的最后一个字符串)。在所有这些操作之后,我想使用
read_delim
两次来解析具有不同分隔符数的行集。我怎样才能愚弄
read\u delim
读取字符串的每个向量而不做任何修改?或者,我唯一的解决方案是编写新的临时文件,然后使用
read\u delim

read_delim
的在线帮助中说:“文件”可以是文字,但“必须至少包含一行新行才能识别为数据(而不是路径)。”

“粘贴”可以添加换行符(如下所示),但为什么我需要这样做来愚弄
read\u delim
读取文本数据而不是路径?为什么不在
read_delim
中添加一个参数,使其以字符串向量的形式读取文本数据

我想传递targetSet字符串向量,但
read\u delim
需要换行符:

 d <- read_delim(paste(targetSet, collapse="\n"), delim="|",
                  col_types=cols(.default="c"))

d查看
paste.c
中的
paste
源代码,我们找到了两行代码

如果(pwidth>INT_MAX)
错误(“结果将超过2^31-1字节”)

因此,
paste
检查粘贴字符串的长度是否为