如何检查readtext是否无法读取部分文件_R_Encoding_Nlp_Quanteda_Read Text

如何检查readtext是否无法读取部分文件

r encoding nlp

如何检查readtext是否无法读取部分文件,r,encoding,nlp,quanteda,read-text,R,Encoding,Nlp,Quanteda,Read Text,我正在使用readtext（）读取文本文件。它似乎是用utf-8编码的（根据notepad++，我无法验证）我不确定它是否正确编码，或者是否存在一些错误/损坏。根据windows资源管理器，磁盘上的文件大小为200+Mb。当我读它并在RAM中检查它的大小时 format(object.size(my_rt), units = "MiB")) 我明白了 [1] 15 MiB # I manually removed some irrilevant info readtext（）在使

我正在使用readtext（）读取文本文件。
它似乎是用utf-8编码的（根据notepad++，我无法验证）
我不确定它是否正确编码，或者是否存在一些错误/损坏。
根据windows资源管理器，磁盘上的文件大小为200+Mb。
当我读它并在RAM中检查它的大小时

format(object.size(my_rt), units = "MiB"))

我明白了

[1] 15 MiB # I manually removed some irrilevant info

readtext（）在使用读取时不会给出任何错误或警告

my_rt <- readtext(nomeFile, docvarsfrom = "filenames"
    ,docvarnames = c("lng","country","type","b","c","d")
                   ,dvsep = "[_.]", encoding = "UTF-8"
                   , verbosity = 3)

my\r您是否尝试过使用其他函数（例如readr
包中的函数）阅读它，以查看是否出现类似问题？无法找到使用readr的方法，因为数据不是“矩形”的。readlines（）也有同样的问题，根据我所读的内容，在处理编码和相关问题时应该比readtext“弱”。这应该作为readtext问题提交，但我们只能通过访问您的文件来诊断。检查了出现问题的文件，发现并删除了异常字符，现在，微粒的.rds文件的大小看起来正常。我应该提交一个问题还是NLP包不应该处理异常字符？（乍一看似乎与coreNLP问题/问题类似：）