Python 熊猫保留带有多个分隔符的行
一个文本文件有多列用于表示,仅显示2列5行原始df约有400000行Python 熊猫保留带有多个分隔符的行,python,pandas,Python,Pandas,一个文本文件有多列用于表示,仅显示2列5行原始df约有400000行 col0 col1 A1 info A2 info1,info2 A3 info4,info1,info6 A4 info3,info10 A5 info7,info1,info2,info4,info9 我想做的是在一行中,col1有多个元素,保留第一个元素,并删除预期输出的其余元素 col0 col1 A1 info A2 info1 A3 info4 A4 info3 A5
col0 col1
A1 info
A2 info1,info2
A3 info4,info1,info6
A4 info3,info10
A5 info7,info1,info2,info4,info9
我想做的是在一行中,col1有多个元素,保留第一个元素,并删除预期输出的其余元素
col0 col1
A1 info
A2 info1
A3 info4
A4 info3
A5 info7
对于健全性检查,是否可以在单独的文本文件中输出已修改的行?
范例
带有_行的文件__modified.txt将具有
col0 col1
A2 info1,info2
A3 info4,info1,info6
A4 info3,info10
A5 info7,info1,info2,info4,info9
编辑:这些是您需要的扁平字符串
df.col1 = df.col1.str.split(',').str[0]
col0 col1
0 A1 info
1 A2 info1
2 A3 info4
3 A4 info3
4 A5 info7
关于你的第二个问题
df[df.col1.str.split(',').str.len() >1]
将返回所有需要编辑的行,以便您可以在修改数据帧之前将结果保存到另一个df中您能告诉我您是如何将其加载到df中的吗?我得到的错误是
name错误:没有使用jupyter记事本定义名称“A1”
您能提供更多详细信息吗?将什么加载到df中?即使我使用的是Jupyter笔记本,你能分享一下你是如何创建df的吗?我只是复制了你发布的df,然后df=pd。read_clipboard()我使用的是df_1={'col0':['A1','A2','A3','A4','A5','col1':[text1,text2,text3,text4,text5]
但无法加载它