Csv 在Julia中读取.dat文件时，会出现可变delimeter间距问题_Csv_Julia

Csv 在Julia中读取.dat文件时，会出现可变delimeter间距问题

csv julia

Csv 在Julia中读取.dat文件时，会出现可变delimeter间距问题,csv,julia,Csv,Julia,我在将.dat文件读入数据帧时遇到问题。我认为问题在于分隔符。我在下面附上了文件中数据的屏幕截图。我最好的猜测是，它在列之间用制表符分隔，然后在行之间用新行分隔。我已尝试使用以下命令读取数据： df = CSV.File("FORCECHAIN00046.dat"; header=false) |> DataFrame! df = CSV.File("FORCECHAIN00046.dat"; header=false, delim = ' ') |> DataFra

我在将.dat文件读入数据帧时遇到问题。我认为问题在于分隔符。我在下面附上了文件中数据的屏幕截图。我最好的猜测是，它在列之间用制表符分隔，然后在行之间用新行分隔。我已尝试使用以下命令读取数据：

    df = CSV.File("FORCECHAIN00046.dat"; header=false) |> DataFrame!
    df = CSV.File("FORCECHAIN00046.dat"; header=false, delim = ' ') |> DataFrame!

无论哪种方式，我的结果都只是一个数据帧，其中只有一列，包括将每列中的所有数据连接到一个字符串中。我甚至尝试使用以下代码指定类型：

df = CSV.File("FORCECHAIN00046.dat"; types=[Float64,Float64,Float64,Float64,
Float64,Float64,Float64,Float64,Float64,Float64,Float64,Float64]) |> DataFrame!

我收到了一封关于以下错误的邮件：

┌ Warning: 2; something went wrong trying to determine row positions for multithreading; it'd be very helpful if you could open an issue at https://github.com/JuliaData/CS
V.jl/issues so package authors can investigate

我可以通过将其上传到google sheets，然后下载csv来解决这个问题，但我想找到一种方法使原始的.dat文件正常工作

这里的部分问题是，

.dat

不是一种合适的文件格式，它似乎是以某种人类可读的格式写出来的，数字列之间用可变的空格分隔，这样当你在编辑器中查看时，数字就排成一行了。GoogleSheets内置了很多聪明的技巧，可以“随心所欲”处理各种定义不清的数据文件，所以我对它能够解析这些文件并不感到惊讶。另一方面，CSV包支持使用单个字符作为分隔符，甚至支持使用多个字符字符串，但不支持这样的可变空格数

可能的解决办法：

如果文件不是太大，您可以轻松地使用自己的解析器来拆分每一行，然后构建一个矩阵
还可以预处理文件，将多个空间转换为单个空间

这可能是最简单的方法，下面是一些Julia代码（未经测试，因为您没有提供测试数据），它将打开您的文件并将其转换为更合理的格式：

function dat2csv(dat_path::AbstractString, csv_path::AbstractString)
    open(csv_path, write=true) do io
        for line in eachline(dat_path)
            join(io, split(line), ',')
            println(io)
        end
    end
    return csv_path
end

function dat2csv(dat_path::AbstractString)
    base, ext = splitext(dat_path)
    ext == ".dat" ||
        throw(ArgumentError("file name doesn't end with `.dat`"))
    return dat2csv(dat_path, "$base.csv")
end

您可以将此函数称为

dat2csv（“FORCECHAIN00046.dat”）

，它将创建文件

FORCECHAIN00046.csv

，该文件将是一个使用逗号作为分隔符的正确csv文件。如果文件中包含任何带有逗号的值，那么这将无法正常工作，但看起来它们只是数字，在这种情况下应该可以。因此，您可以使用此功能将文件转换为正确的CSV，然后使用CSV包加载该文件

对代码的一点解释：

双参数
```
dat2csv
```
方法打开
```
csv\u path
```
进行写入，然后调用
```
dat\u path
```
上的
```
eachline
```
一次读取其中的一行
```
eachline
```
从每一行中去掉任何尾随的换行符，因此每一行都是一组数字，用空格分隔，并带有一些前导和/或尾随空格
```
split（line）
```
执行
```
line
```
的默认拆分，在空白处拆分，删除任何空值这只将非空白项作为字符串保留在数组中
```
join（io，split（line），，）
```
将数组中的字符串连接在一起，由
```
，
```
字符分隔，并将其写入
```
io
```
写入
```
csv\u路径的句柄
```


println（io）
在那之后写一个换行符，否则所有的东西都会在一个很长的行上结束
单参数dat2csv
方法调用splitext
将文件名拆分为基本名称和扩展名，检查扩展名是否为预期的.dat
，并调用两个参数版本，将.dat
替换为.csv

您是否尝试过delim=''，ignorerepeated=true
？可能不起作用，因为其中似乎有前导空格。如果ignorerepeated=true
哇，感谢您提供了这样一个完整且有用的回答，那么，标题和尾随空格不应该是一个问题！它工作得很好，但只是一些关于它如何工作的问题。我理解代码是用逗号连接每一个换行符，那么它是如何用逗号连接每一列的呢？此外，println（io）的用途是什么。在这种情况下，它的功能是否像一个书面陈述？我将在答案中添加一些解释，而不是在这里添加答案。