Python熊猫-读取带有注释标题行的csv
我想用pandas读取和处理csv文件。文件(如下所示)包含多个标题行,标题行由Python熊猫-读取带有注释标题行的csv,python,pandas,csv,parsing,openfoam,Python,Pandas,Csv,Parsing,Openfoam,我想用pandas读取和处理csv文件。文件(如下所示)包含多个标题行,标题行由#标记指示。我可以使用 将熊猫作为pd导入 file=“data.csv” data=pd.read\u csv(文件,分隔符=“\s+”, 名称=[“时间”、“Cd”、“Cs”、“Cl”、“CmRoll”、“CmPitch”、“CmYaw”、“Cd(f)”, "Cd(r),"Cs(f),"Cs(r),"Cl(f),, skiprows=13) 但是,我有很多这样的文件,它们的头名不同,我不想手动命名它们(Time
#
标记指示。我可以使用
将熊猫作为pd导入
file=“data.csv”
data=pd.read\u csv(文件,分隔符=“\s+”,
名称=[“时间”、“Cd”、“Cs”、“Cl”、“CmRoll”、“CmPitch”、“CmYaw”、“Cd(f)”,
"Cd(r),"Cs(f),"Cs(r),"Cl(f),,
skiprows=13)
但是,我有很多这样的文件,它们的头名不同,我不想手动命名它们(Time-Cd-Cs…
)。此外,每个文件之间的注释行数也不同。所以我想自动化这项任务
在将数据传递到数据帧之前,我必须在这里使用正则表达式之类的东西吗
谢谢你的建议
是的,标题名称也以#
开头
data.csv:
# Force coefficients
# dragDir : (9.9735673312816520e-01 7.2660490528994301e-02 0.0000000000000000e+00)
# sideDir : (0.0000000000000000e+00 0.0000000000000000e+00 -1.0000000000000002e+00)
# liftDir : (-7.2660490528994315e-02 9.9735673312816520e-01 0.0000000000000000e+00)
# rollAxis : (9.9735673312816520e-01 7.2660490528994301e-02 0.0000000000000000e+00)
# pitchAxis : (0.0000000000000000e+00 0.0000000000000000e+00 -1.0000000000000002e+00)
# yawAxis : (-7.2660490528994315e-02 9.9735673312816520e-01 0.0000000000000000e+00)
# magUInf : 4.5000000000000000e+01
# lRef : 5.9399999999999997e-01
# Aref : 3.5639999999999999e-03
# CofR : (1.4999999999999999e-01 0.0000000000000000e+00 0.0000000000000000e+00)
#
# Time Cd Cs Cl CmRoll CmPitch CmYaw Cd(f) Cd(r) Cs(f) Cs(r) Cl(f) Cl(r)
5e-06 1.8990180226147195e+00 1.4919925634649792e-11 2.1950119509976829e+00 -1.1085971520784955e-02 -1.0863798447281650e+00 9.5910040927874810e-03 9.3842303978657482e-01 9.6059498282814471e-01 9.5910041002474442e-03 -9.5910040853275178e-03 1.1126130770676479e-02 2.1838858202270064e+00
1e-05 2.1428508927716594e+00 1.0045114197556737e-08 2.5051633252700962e+00 -1.2652317494411272e-02 -1.2367567798452046e+00 1.0822379290263353e-02 1.0587731288914184e+00 1.0840777638802410e+00 1.0822384312820453e-02 -1.0822374267706254e-02 1.5824882789843508e-02 2.4893384424802525e+00
...
一点正则表达式可能会有所帮助 这不是最漂亮的解决方案,所以请随意发布更好的解决方案 让我们读取任何文件的前50行,以查找最后出现的哈希值,该哈希值应为列名
- ^在行的开始处断言位置
按字面意思匹配字符(区分大小写)#
编辑、处理列名中的
#
。
我们可以分两步来完成
我们可以读取0行,但可以对标题列进行切片
首先从标题行读入文件,但将header
参数设置为None
,这样就不会设置任何标题
然后我们可以手动设置列标题
df = pd.read_csv(path_,sep='\s+',skiprows=start_col + 1, header=None)
df.columns = pd.read_csv(path_,sep='\s+',skiprows=start_col,nrows=0).columns[1:]
print(df)
Time Cd Cs Cl CmRoll CmPitch CmYaw \
0 0.000005 1.899018 1.491993e-11 2.195012 -0.011086 -1.086380 0.009591
1 0.000010 2.142851 1.004511e-08 2.505163 -0.012652 -1.236757 0.010822
Cd(f) Cd(r) Cs(f) Cs(r) Cl(f) Cl(r)
0 0.938423 0.960595 0.009591 -0.009591 0.011126 2.183886
1 1.058773 1.084078 0.010822 -0.010822 0.015825 2.489338
在读取文件之前提取头文件怎么样? 我们只假设标题行以
#
开头。头的提取及其在文件中的位置是自动的。我们还确保读取的行数不超过所需的行数(第一行数据除外)
这样,您还可以处理其他标题行。它还提供了头在文件中的位置。为了简化它,并节省时间而不使用循环,您可以为
#
注释行创建2个数据帧,以及其他数据帧。
从这些注释行中选取最后一行-这是您的标题,然后使用concat()
合并数据帧和此标题。如果有必要将第一行指定为标题,也可以使用df.columns=df.iloc[0]
df = pd.DataFrame({
'A':['#test1 : (000000)','#test1 (000000)','#test1 (000000)','#test1 (000000)','#Time (000000)','5e-06','1e-05'],
})
print(df)
A
0 #test1 : (000000)
1 #test1 (000000)
2 #test1 (000000)
3 #test1 (000000)
4 #Time (000000)
5 5e-06
6 1e-05
df_header = df[df.A.str.contains('^#')]
print(df_header)
A
0 #test1 : (000000)
1 #test1 (000000)
2 #test1 (000000)
3 #test1 (000000)
4 #Time (000000)
df_data = df[~df.A.str.contains('^#')]
print(df_data)
A
5 5e-06
6 1e-05
df = (pd.concat([df_header.iloc[[-1]],df_data])).reset_index(drop=True)
df.A=df.A.str.replace(r'^#',"")
print(df)
A
0 Time (000000)
1 5e-06
2 1e-05
假设注释总是以单个“#”开头,并且标题位于最后一个注释行中:
导入csv
def read_注释(csv_文件):
对于csv_文件中的行:
如果行[0]='#':
产量行.拆分('#')[1].strip()
def get_last_commented_行(文件名):
将open(文件名为“r”,换行符为“”)设为f:
取消注释的注释行=[csv.reader中的行对行(读取注释(f))]
标题=取消注释的\u行[-1]
skiprows=len(非对称线)
返回标题,skiprows
标题,skiprows=get\u last\u commented\u行(路径)
pd.read_csv(路径,名称=标题,skiprows=skiprows)
这应该可以做到,它简单高效,将变量保持在最小值,除了文件名之外不需要任何输入
with open(file, 'r') as f:
for line in f:
if line.startswith('#'):
header = line
else:
break #stop when there are no more #
header = header[1:].strip().split()
data = pd.read_csv(file, delimiter="\s+", comment='#', names=header)
您首先打开文件,然后仅读取注释行(这将非常快速且节省内存)。最后一个有效行将是最终标题,它将被清除并转换为列表。最后,使用
pandas.read_csv()
和comment='.
打开文件,这将跳过注释行,和names=header
你的头总是在最后一行的位置吗?实际上大多数文件-所以是的:)EDIT:是的。这无法处理头名行上的
注释标记,这导致最后一列中出现NaN
,因为熊猫认为首字母
也是头名。但你的解决方案对我来说是个好的开始。谢谢。@Sunsheep实际上是你的熟食'\s+'
?是的。你的编辑效果很好,但在我看来,Stefans的答案更简单:)然而,这些文件很大,所以你只读取前50行的解决方案非常方便。这很好。非常感谢。但是,由于我的文件很大,所以我将只阅读@Manakin@Sunsheep,我的解决方案只读取标题行+第一个数据行。所以如果你的页眉是13行,你会读14行,效果很好。谢谢类似于Stefans的回答。他跑快了一点:)
df = pd.DataFrame({
'A':['#test1 : (000000)','#test1 (000000)','#test1 (000000)','#test1 (000000)','#Time (000000)','5e-06','1e-05'],
})
print(df)
A
0 #test1 : (000000)
1 #test1 (000000)
2 #test1 (000000)
3 #test1 (000000)
4 #Time (000000)
5 5e-06
6 1e-05
df_header = df[df.A.str.contains('^#')]
print(df_header)
A
0 #test1 : (000000)
1 #test1 (000000)
2 #test1 (000000)
3 #test1 (000000)
4 #Time (000000)
df_data = df[~df.A.str.contains('^#')]
print(df_data)
A
5 5e-06
6 1e-05
df = (pd.concat([df_header.iloc[[-1]],df_data])).reset_index(drop=True)
df.A=df.A.str.replace(r'^#',"")
print(df)
A
0 Time (000000)
1 5e-06
2 1e-05
with open(file, 'r') as f:
for line in f:
if line.startswith('#'):
header = line
else:
break #stop when there are no more #
header = header[1:].strip().split()
data = pd.read_csv(file, delimiter="\s+", comment='#', names=header)