如何检查readtext是否无法读取部分文件

如何检查readtext是否无法读取部分文件,r,encoding,nlp,quanteda,read-text,R,Encoding,Nlp,Quanteda,Read Text,我正在使用readtext()读取文本文件。 它似乎是用utf-8编码的(根据notepad++,我无法验证) 我不确定它是否正确编码,或者是否存在一些错误/损坏。 根据windows资源管理器,磁盘上的文件大小为200+Mb。 当我读它并在RAM中检查它的大小时 format(object.size(my_rt), units = "MiB")) 我明白了 [1] 15 MiB # I manually removed some irrilevant info readtext()在使

我正在使用readtext()读取文本文件。
它似乎是用utf-8编码的(根据notepad++,我无法验证)
我不确定它是否正确编码,或者是否存在一些错误/损坏。
根据windows资源管理器,磁盘上的文件大小为200+Mb。
当我读它并在RAM中检查它的大小时

format(object.size(my_rt), units = "MiB"))
我明白了

[1] 15 MiB # I manually removed some irrilevant info  
readtext()在使用读取时不会给出任何错误或警告

my_rt <- readtext(nomeFile, docvarsfrom = "filenames"
    ,docvarnames = c("lng","country","type","b","c","d")
                   ,dvsep = "[_.]", encoding = "UTF-8"
                   , verbosity = 3)

my\r您是否尝试过使用其他函数(例如
readr
包中的函数)阅读它,以查看是否出现类似问题?无法找到使用readr的方法,因为数据不是“矩形”的。readlines()也有同样的问题,根据我所读的内容,在处理编码和相关问题时应该比readtext“弱”。这应该作为readtext问题提交,但我们只能通过访问您的文件来诊断。检查了出现问题的文件,发现并删除了异常字符,现在,微粒的.rds文件的大小看起来正常。我应该提交一个问题还是NLP包不应该处理异常字符?(乍一看似乎与coreNLP问题/问题类似:)