Csv 在Julia中读取.dat文件时,会出现可变delimeter间距问题

Csv 在Julia中读取.dat文件时,会出现可变delimeter间距问题,csv,julia,Csv,Julia,我在将.dat文件读入数据帧时遇到问题。我认为问题在于分隔符。我在下面附上了文件中数据的屏幕截图。我最好的猜测是,它在列之间用制表符分隔,然后在行之间用新行分隔。我已尝试使用以下命令读取数据: df = CSV.File("FORCECHAIN00046.dat"; header=false) |> DataFrame! df = CSV.File("FORCECHAIN00046.dat"; header=false, delim = ' ') |> DataFra

我在将.dat文件读入数据帧时遇到问题。我认为问题在于分隔符。我在下面附上了文件中数据的屏幕截图。我最好的猜测是,它在列之间用制表符分隔,然后在行之间用新行分隔。我已尝试使用以下命令读取数据:

    df = CSV.File("FORCECHAIN00046.dat"; header=false) |> DataFrame!
    df = CSV.File("FORCECHAIN00046.dat"; header=false, delim = ' ') |> DataFrame!
无论哪种方式,我的结果都只是一个数据帧,其中只有一列,包括将每列中的所有数据连接到一个字符串中。我甚至尝试使用以下代码指定类型:

df = CSV.File("FORCECHAIN00046.dat"; types=[Float64,Float64,Float64,Float64,
Float64,Float64,Float64,Float64,Float64,Float64,Float64,Float64]) |> DataFrame!
我收到了一封关于以下错误的邮件:

┌ Warning: 2; something went wrong trying to determine row positions for multithreading; it'd be very helpful if you could open an issue at https://github.com/JuliaData/CS
V.jl/issues so package authors can investigate
我可以通过将其上传到google sheets,然后下载csv来解决这个问题,但我想找到一种方法使原始的.dat文件正常工作


这里的部分问题是,
.dat
不是一种合适的文件格式,它似乎是以某种人类可读的格式写出来的,数字列之间用可变的空格分隔,这样当你在编辑器中查看时,数字就排成一行了。GoogleSheets内置了很多聪明的技巧,可以“随心所欲”处理各种定义不清的数据文件,所以我对它能够解析这些文件并不感到惊讶。另一方面,CSV包支持使用单个字符作为分隔符,甚至支持使用多个字符字符串,但不支持这样的可变空格数

可能的解决办法:

  • 如果文件不是太大,您可以轻松地使用自己的解析器来拆分每一行,然后构建一个矩阵
  • 还可以预处理文件,将多个空间转换为单个空间
这可能是最简单的方法,下面是一些Julia代码(未经测试,因为您没有提供测试数据),它将打开您的文件并将其转换为更合理的格式:

function dat2csv(dat_path::AbstractString, csv_path::AbstractString)
    open(csv_path, write=true) do io
        for line in eachline(dat_path)
            join(io, split(line), ',')
            println(io)
        end
    end
    return csv_path
end

function dat2csv(dat_path::AbstractString)
    base, ext = splitext(dat_path)
    ext == ".dat" ||
        throw(ArgumentError("file name doesn't end with `.dat`"))
    return dat2csv(dat_path, "$base.csv")
end
您可以将此函数称为
dat2csv(“FORCECHAIN00046.dat”)
,它将创建文件
FORCECHAIN00046.csv
,该文件将是一个使用逗号作为分隔符的正确csv文件。如果文件中包含任何带有逗号的值,那么这将无法正常工作,但看起来它们只是数字,在这种情况下应该可以。因此,您可以使用此功能将文件转换为正确的CSV,然后使用CSV包加载该文件

对代码的一点解释:

  • 双参数
    dat2csv
    方法打开
    csv\u path
    进行写入,然后调用
    dat\u path
    上的
    eachline
    一次读取其中的一行
  • eachline
    从每一行中去掉任何尾随的换行符,因此每一行都是一组数字,用空格分隔,并带有一些前导和/或尾随空格
  • split(line)
    执行
    line
    的默认拆分,在空白处拆分,删除任何空值这只将非空白项作为字符串保留在数组中
  • join(io,split(line),,)
    将数组中的字符串连接在一起,由
    字符分隔,并将其写入
    io
    写入
    csv\u路径的句柄
  • println(io)
    在那之后写一个换行符,否则所有的东西都会在一个很长的行上结束
  • 单参数
    dat2csv
    方法调用
    splitext
    将文件名拆分为基本名称和扩展名,检查扩展名是否为预期的
    .dat
    ,并调用两个参数版本,将
    .dat
    替换为
    .csv

您是否尝试过
delim='',ignorerepeated=true
?可能不起作用,因为其中似乎有前导空格。如果
ignorerepeated=true
哇,感谢您提供了这样一个完整且有用的回答,那么,标题和尾随空格不应该是一个问题!它工作得很好,但只是一些关于它如何工作的问题。我理解代码是用逗号连接每一个换行符,那么它是如何用逗号连接每一列的呢?此外,println(io)的用途是什么。在这种情况下,它的功能是否像一个书面陈述?我将在答案中添加一些解释,而不是在这里添加答案。