Csv 在Julia中读取.dat文件时,会出现可变delimeter间距问题
我在将.dat文件读入数据帧时遇到问题。我认为问题在于分隔符。我在下面附上了文件中数据的屏幕截图。我最好的猜测是,它在列之间用制表符分隔,然后在行之间用新行分隔。我已尝试使用以下命令读取数据:Csv 在Julia中读取.dat文件时,会出现可变delimeter间距问题,csv,julia,Csv,Julia,我在将.dat文件读入数据帧时遇到问题。我认为问题在于分隔符。我在下面附上了文件中数据的屏幕截图。我最好的猜测是,它在列之间用制表符分隔,然后在行之间用新行分隔。我已尝试使用以下命令读取数据: df = CSV.File("FORCECHAIN00046.dat"; header=false) |> DataFrame! df = CSV.File("FORCECHAIN00046.dat"; header=false, delim = ' ') |> DataFra
df = CSV.File("FORCECHAIN00046.dat"; header=false) |> DataFrame!
df = CSV.File("FORCECHAIN00046.dat"; header=false, delim = ' ') |> DataFrame!
无论哪种方式,我的结果都只是一个数据帧,其中只有一列,包括将每列中的所有数据连接到一个字符串中。我甚至尝试使用以下代码指定类型:
df = CSV.File("FORCECHAIN00046.dat"; types=[Float64,Float64,Float64,Float64,
Float64,Float64,Float64,Float64,Float64,Float64,Float64,Float64]) |> DataFrame!
我收到了一封关于以下错误的邮件:
┌ Warning: 2; something went wrong trying to determine row positions for multithreading; it'd be very helpful if you could open an issue at https://github.com/JuliaData/CS
V.jl/issues so package authors can investigate
我可以通过将其上传到google sheets,然后下载csv来解决这个问题,但我想找到一种方法使原始的.dat文件正常工作
这里的部分问题是,
.dat
不是一种合适的文件格式,它似乎是以某种人类可读的格式写出来的,数字列之间用可变的空格分隔,这样当你在编辑器中查看时,数字就排成一行了。GoogleSheets内置了很多聪明的技巧,可以“随心所欲”处理各种定义不清的数据文件,所以我对它能够解析这些文件并不感到惊讶。另一方面,CSV包支持使用单个字符作为分隔符,甚至支持使用多个字符字符串,但不支持这样的可变空格数
可能的解决办法:
- 如果文件不是太大,您可以轻松地使用自己的解析器来拆分每一行,然后构建一个矩阵
- 还可以预处理文件,将多个空间转换为单个空间
function dat2csv(dat_path::AbstractString, csv_path::AbstractString)
open(csv_path, write=true) do io
for line in eachline(dat_path)
join(io, split(line), ',')
println(io)
end
end
return csv_path
end
function dat2csv(dat_path::AbstractString)
base, ext = splitext(dat_path)
ext == ".dat" ||
throw(ArgumentError("file name doesn't end with `.dat`"))
return dat2csv(dat_path, "$base.csv")
end
您可以将此函数称为dat2csv(“FORCECHAIN00046.dat”)
,它将创建文件FORCECHAIN00046.csv
,该文件将是一个使用逗号作为分隔符的正确csv文件。如果文件中包含任何带有逗号的值,那么这将无法正常工作,但看起来它们只是数字,在这种情况下应该可以。因此,您可以使用此功能将文件转换为正确的CSV,然后使用CSV包加载该文件
对代码的一点解释:
- 双参数
方法打开dat2csv
进行写入,然后调用csv\u path
上的dat\u path
一次读取其中的一行eachline
从每一行中去掉任何尾随的换行符,因此每一行都是一组数字,用空格分隔,并带有一些前导和/或尾随空格eachline
执行split(line)
的默认拆分,在空白处拆分,删除任何空值这只将非空白项作为字符串保留在数组中line
将数组中的字符串连接在一起,由join(io,split(line),,)
字符分隔,并将其写入,
写入io
csv\u路径的句柄
在那之后写一个换行符,否则所有的东西都会在一个很长的行上结束println(io)
- 单参数
方法调用dat2csv
将文件名拆分为基本名称和扩展名,检查扩展名是否为预期的splitext
,并调用两个参数版本,将.dat
替换为.dat
.csv
delim='',ignorerepeated=true
?可能不起作用,因为其中似乎有前导空格。如果ignorerepeated=true
哇,感谢您提供了这样一个完整且有用的回答,那么,标题和尾随空格不应该是一个问题!它工作得很好,但只是一些关于它如何工作的问题。我理解代码是用逗号连接每一个换行符,那么它是如何用逗号连接每一列的呢?此外,println(io)的用途是什么。在这种情况下,它的功能是否像一个书面陈述?我将在答案中添加一些解释,而不是在这里添加答案。