R “如何避免阅读信件”;不适用;作为失踪(或NA)?

R “如何避免阅读信件”;不适用;作为失踪(或NA)?,r,na,R,Na,我有一个包含电话号码的图书馆记录大文件(csv),我从中提取了字母。架构子类是NA。因此,分类为“NA1053.B69 P4 1994”的记录在不同的列中提取了“NA”。但是,当将此文件读入R时,这些NA字母将被读取为NA或缺失值。有没有办法避免这种情况,也许可以指定哪些应该被视为“缺失”,以及如何对其进行编码 根据您用于读取csv的功能,您可以覆盖默认行为,将的“NA”解释为NA。大多数带分隔符的数据读取函数都有可选参数来控制被认为缺少的内容 使用read.csv,则为na.strings,

我有一个包含电话号码的图书馆记录大文件(csv),我从中提取了字母。架构子类是NA。因此,分类为“NA1053.B69 P4 1994”的记录在不同的列中提取了“NA”。但是,当将此文件读入R时,这些NA字母将被读取为NA或缺失值。有没有办法避免这种情况,也许可以指定哪些应该被视为“缺失”,以及如何对其进行编码

根据您用于读取csv的功能,您可以覆盖默认行为,将
的“NA”
解释为
NA
。大多数带分隔符的数据读取函数都有可选参数来控制被认为缺少的内容

  • 使用
    read.csv
    ,则为
    na.strings
    ,默认为
    “na”

  • 使用
    readr::read_csv
    ,则为
    na
    ,默认为
    c(“,“na”)

  • 使用
    data.table::fread
    ,也被称为
    na.strings
    ,默认为
    “na”
    ,但也由包选项控制。更多详情请参阅


因此,在您的示例中,您将编写类似于
readr::read_csv(file=“path/to/file”,na=”“)
的内容,因此文件中的
“na”
不会被解释为
na
。当然,通常只有在像您这样的情况下这样做才有意义,
“NA”
有意义,并且不代表缺失的值。

根据您用来读取csv的函数,您可以覆盖默认行为,将
“NA”
解释为
NA
。大多数带分隔符的数据读取函数都有可选参数来控制被认为缺少的内容

  • 使用
    read.csv
    ,则为
    na.strings
    ,默认为
    “na”

  • 使用
    readr::read_csv
    ,则为
    na
    ,默认为
    c(“,“na”)

  • 使用
    data.table::fread
    ,也被称为
    na.strings
    ,默认为
    “na”
    ,但也由包选项控制。更多详情请参阅


因此,在您的示例中,您将编写类似于
readr::read_csv(file=“path/to/file”,na=”“)
的内容,因此文件中的
“na”
不会被解释为
na
。当然,通常只有在像您这样的情况下这样做才有意义,
“NA”
有意义,并且不代表缺失值。

将缺失值设为
NA
是否更好,因为有方法跟踪NA
Is.NA
complete.cases的缺失值,
na.omit
etc和许多函数都有
na.rm
作为参数最好有
na
的缺失值,因为有一些方法可以跟踪na
is.na
complete.cases
na.omit
等的缺失值,许多函数都有
na.rm
作为参数