python读取列数据中的csv分隔符

python读取列数据中的csv分隔符,python,csv,python-3.x,pandas,delimiter,Python,Csv,Python 3.x,Pandas,Delimiter,我有这种类型的CSV文件: 12012;My Name is Mike. What is your's?;3;0 1522;In my opinion: It's cool; or at least not bad;4;0 21427;Hello. I like this feature!;5;1 我想把这些数据输入dapandas.DataFrame。 但是read_csv(sep=“;”)由于第2行中用户生成的消息列中的分号而引发异常(我认为:这很酷;或者至少还不错)。所有剩余列始终具有

我有这种类型的CSV文件:

12012;My Name is Mike. What is your's?;3;0 
1522;In my opinion: It's cool; or at least not bad;4;0
21427;Hello. I like this feature!;5;1
我想把这些数据输入da
pandas.DataFrame
。 但是
read_csv(sep=“;”)
由于第2行中用户生成的消息列中的分号而引发异常(我认为:这很酷;或者至少还不错)。所有剩余列始终具有数字数据类型


最方便的管理方法是什么

处理不带引号的分隔符总是一件麻烦事。在本例中,由于已知断开的文本被三个正确编码的列包围,因此我们可以恢复。TBH,我只需要使用标准的Python阅读器,然后从中构建一个数据帧:

import csv
import pandas as pd

with open("semi.dat", "r", newline="") as fp:
    reader = csv.reader(fp, delimiter=";")
    rows = [x[:1] + [';'.join(x[1:-2])] + x[-2:] for x in reader] 
    df = pd.DataFrame(rows)
产生

       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1
然后我们可以立即保存它,并获得正确引用的内容:

In [67]: df.to_csv("fixedsemi.dat", sep=";", header=None, index=False)

In [68]: more fixedsemi.dat
12012;My Name is Mike. What is your's?;3;0
1522;"In my opinion: It's cool; or at least not bad";4;0
21427;Hello. I like this feature!;5;1

In [69]: df2 = pd.read_csv("fixedsemi.dat", sep=";", header=None)

In [70]: df2
Out[70]: 
       0                                              1  2  3
0  12012               My Name is Mike. What is your's?  3  0
1   1522  In my opinion: It's cool; or at least not bad  4  0
2  21427                    Hello. I like this feature!  5  1

你能解释一下你的问题吗?您期望的输出是什么?我的目的是将此csv数据解析为数据帧。但它抛出了一个例外,因为一列中有一个分号,熊猫认为它应该将其分为两列。谁在生成这些模糊的文件?有没有办法移动天地使它们保持理智?很好。这是一个很好的解决办法。谢谢无论如何,有没有一种方法可以挂接到pandas解析器中,并“动态”进行拆分和连接?对于大型CSV文件有没有更好的解决方案?这需要太多的时间。