如何检查readtext是否无法读取部分文件
我正在使用readtext()读取文本文件。如何检查readtext是否无法读取部分文件,r,encoding,nlp,quanteda,read-text,R,Encoding,Nlp,Quanteda,Read Text,我正在使用readtext()读取文本文件。 它似乎是用utf-8编码的(根据notepad++,我无法验证) 我不确定它是否正确编码,或者是否存在一些错误/损坏。 根据windows资源管理器,磁盘上的文件大小为200+Mb。 当我读它并在RAM中检查它的大小时 format(object.size(my_rt), units = "MiB")) 我明白了 [1] 15 MiB # I manually removed some irrilevant info readtext()在使
它似乎是用utf-8编码的(根据notepad++,我无法验证)
我不确定它是否正确编码,或者是否存在一些错误/损坏。
根据windows资源管理器,磁盘上的文件大小为200+Mb。
当我读它并在RAM中检查它的大小时
format(object.size(my_rt), units = "MiB"))
我明白了
[1] 15 MiB # I manually removed some irrilevant info
readtext()在使用读取时不会给出任何错误或警告
my_rt <- readtext(nomeFile, docvarsfrom = "filenames"
,docvarnames = c("lng","country","type","b","c","d")
,dvsep = "[_.]", encoding = "UTF-8"
, verbosity = 3)
my\r您是否尝试过使用其他函数(例如readr
包中的函数)阅读它,以查看是否出现类似问题?无法找到使用readr的方法,因为数据不是“矩形”的。readlines()也有同样的问题,根据我所读的内容,在处理编码和相关问题时应该比readtext“弱”。这应该作为readtext问题提交,但我们只能通过访问您的文件来诊断。检查了出现问题的文件,发现并删除了异常字符,现在,微粒的.rds文件的大小看起来正常。我应该提交一个问题还是NLP包不应该处理异常字符?(乍一看似乎与coreNLP问题/问题类似:)