Python 打开、编辑和保存csv文件_Python_Pandas

Python 打开、编辑和保存csv文件

python pandas

Python 打开、编辑和保存csv文件,python,pandas,Python,Pandas,我有一个名为pairList的csv，它看起来像： 0 BBG.XNGS.AAPL.S BBG.XNGS.BRCM.S 0 1 BBG.XNGS.AAPL.S BBG.XNGS.MSFT.S 0 2 BBG.XNGS.AAPL.S BBG.XNGS.AMAT.S 0 3 BBG.XNGS.AAPL.S BBG.XNGS.QCOM.S 0 4 BBG.XNGS.AMGN.S BBG.XNYS.MWW.S 0 5 BBG.XNGS.BRCM.

我有一个名为pairList的csv，它看起来像：

0    BBG.XNGS.AAPL.S  BBG.XNGS.BRCM.S  0
1    BBG.XNGS.AAPL.S  BBG.XNGS.MSFT.S  0
2    BBG.XNGS.AAPL.S  BBG.XNGS.AMAT.S  0
3    BBG.XNGS.AAPL.S  BBG.XNGS.QCOM.S  0
4    BBG.XNGS.AMGN.S   BBG.XNYS.MWW.S  0
5    BBG.XNGS.BRCM.S  BBG.XNGS.MSFT.S  0
6    BBG.XNGS.BRCM.S  BBG.XNGS.AMAT.S  0
7    BBG.XNGS.BRCM.S  BBG.XNGS.QCOM.S  0
8    BBG.XNGS.MSFT.S  BBG.XNGS.AMAT.S  0
9    BBG.XNGS.MSFT.S  BBG.XNGS.QCOM.S  0
10   BBG.XNGS.AMAT.S  BBG.XNGS.QCOM.S  0
11  BBG.XNGS.CMCSA.S  BBG.XNGS.CSCO.S  0
12  BBG.XNGS.CMCSA.S  BBG.XNGS.SYMC.S  0
13   BBG.XNGS.CSCO.S  BBG.XNGS.SYMC.S  0

    0    BBG.XNGS.AAPL.S  BBG.XNGS.BRCM.S  0  1
    1    BBG.XNGS.AAPL.S  BBG.XNGS.MSFT.S  0  1
    2    BBG.XNGS.AAPL.S  BBG.XNGS.AMAT.S  0  1
    3    BBG.XNGS.AAPL.S  BBG.XNGS.QCOM.S  0  1
    4    BBG.XNGS.AMGN.S   BBG.XNYS.MWW.S  0  1
    5    BBG.XNGS.BRCM.S  BBG.XNGS.MSFT.S  0  1
    6    BBG.XNGS.BRCM.S  BBG.XNGS.AMAT.S  0  1
    7    BBG.XNGS.BRCM.S  BBG.XNGS.QCOM.S  0  1
    8    BBG.XNGS.MSFT.S  BBG.XNGS.AMAT.S  0  1
    9    BBG.XNGS.MSFT.S  BBG.XNGS.QCOM.S  0  1
    10   BBG.XNGS.AMAT.S  BBG.XNGS.QCOM.S  0  1
    11  BBG.XNGS.CMCSA.S  BBG.XNGS.CSCO.S  0  1
    12  BBG.XNGS.CMCSA.S  BBG.XNGS.SYMC.S  0  1
    13   BBG.XNGS.CSCO.S  BBG.XNGS.SYMC.S  0  1

我试图打开csv，向下看每一行，直到找到第一行，其中4列等于0（在这种情况下，这是第一行，但它会改变）。将此行的数据复制到3个变量

stock1ID
stock2ID 
status

然后更新状态（seelcted行第4列中的值），然后将数据帧保存回csv。因此，csv（在本例中）最终看起来像：

0    BBG.XNGS.AAPL.S  BBG.XNGS.BRCM.S  1
1    BBG.XNGS.AAPL.S  BBG.XNGS.MSFT.S  0
2    BBG.XNGS.AAPL.S  BBG.XNGS.AMAT.S  0
3    BBG.XNGS.AAPL.S  BBG.XNGS.QCOM.S  0
4    BBG.XNGS.AMGN.S   BBG.XNYS.MWW.S  0
5    BBG.XNGS.BRCM.S  BBG.XNGS.MSFT.S  0
6    BBG.XNGS.BRCM.S  BBG.XNGS.AMAT.S  0
7    BBG.XNGS.BRCM.S  BBG.XNGS.QCOM.S  0
8    BBG.XNGS.MSFT.S  BBG.XNGS.AMAT.S  0
9    BBG.XNGS.MSFT.S  BBG.XNGS.QCOM.S  0
10   BBG.XNGS.AMAT.S  BBG.XNGS.QCOM.S  0
11  BBG.XNGS.CMCSA.S  BBG.XNGS.CSCO.S  0
12  BBG.XNGS.CMCSA.S  BBG.XNGS.SYMC.S  0
13   BBG.XNGS.CSCO.S  BBG.XNGS.SYMC.S  0

我可以打开csv并选择数据，将其指定为3个变量。我无法保存更新的csv。我得到的csv看起来像：

0    BBG.XNGS.AAPL.S  BBG.XNGS.BRCM.S  0
1    BBG.XNGS.AAPL.S  BBG.XNGS.MSFT.S  0
2    BBG.XNGS.AAPL.S  BBG.XNGS.AMAT.S  0
3    BBG.XNGS.AAPL.S  BBG.XNGS.QCOM.S  0
4    BBG.XNGS.AMGN.S   BBG.XNYS.MWW.S  0
5    BBG.XNGS.BRCM.S  BBG.XNGS.MSFT.S  0
6    BBG.XNGS.BRCM.S  BBG.XNGS.AMAT.S  0
7    BBG.XNGS.BRCM.S  BBG.XNGS.QCOM.S  0
8    BBG.XNGS.MSFT.S  BBG.XNGS.AMAT.S  0
9    BBG.XNGS.MSFT.S  BBG.XNGS.QCOM.S  0
10   BBG.XNGS.AMAT.S  BBG.XNGS.QCOM.S  0
11  BBG.XNGS.CMCSA.S  BBG.XNGS.CSCO.S  0
12  BBG.XNGS.CMCSA.S  BBG.XNGS.SYMC.S  0
13   BBG.XNGS.CSCO.S  BBG.XNGS.SYMC.S  0

    0    BBG.XNGS.AAPL.S  BBG.XNGS.BRCM.S  0  1
    1    BBG.XNGS.AAPL.S  BBG.XNGS.MSFT.S  0  1
    2    BBG.XNGS.AAPL.S  BBG.XNGS.AMAT.S  0  1
    3    BBG.XNGS.AAPL.S  BBG.XNGS.QCOM.S  0  1
    4    BBG.XNGS.AMGN.S   BBG.XNYS.MWW.S  0  1
    5    BBG.XNGS.BRCM.S  BBG.XNGS.MSFT.S  0  1
    6    BBG.XNGS.BRCM.S  BBG.XNGS.AMAT.S  0  1
    7    BBG.XNGS.BRCM.S  BBG.XNGS.QCOM.S  0  1
    8    BBG.XNGS.MSFT.S  BBG.XNGS.AMAT.S  0  1
    9    BBG.XNGS.MSFT.S  BBG.XNGS.QCOM.S  0  1
    10   BBG.XNGS.AMAT.S  BBG.XNGS.QCOM.S  0  1
    11  BBG.XNGS.CMCSA.S  BBG.XNGS.CSCO.S  0  1
    12  BBG.XNGS.CMCSA.S  BBG.XNGS.SYMC.S  0  1
    13   BBG.XNGS.CSCO.S  BBG.XNGS.SYMC.S  0  1

csv有一个额外的第4列1，而我只希望已选择的行的第3列中应有一个1

请参阅下面我到目前为止编写的代码：

def getPairID(TimeseriesDataPath):


#status = 0 - pair not processed
#status = 1 - pair being processed
#status = 2 - pair finined being processed
pattern = 'PairsToTestList'+'.csv'
pairToTest = 0
with open(TimeseriesDataPath+pattern,'rt') as f:
    pairList = pd.read_csv(f,engine='c',header=None,index_col=0, parse_dates=True, infer_datetime_format=True)
    for i, row in pairList.iterrows():
        if i != 'unique_id':
            stock1ID = row[1]
            stock2ID = row[2]
            status = row[3]

            if status == 0 :
                print('stock1ID ',stock1ID,'stock2ID ',stock2ID,'status ',status)

                pairToTest = 1     
                pairList[row[2]] = 1


                path = os.path.join(TimeseriesDataPath,pattern)
                pairList.to_csv(path,header=False)
                break

    return stock1ID,stock2ID,pairToTest

更新以包含我认为您正在寻找的迭代

我还使用

.iloc

更新了它，以查找下一行的整数位置，而不是使用索引

f = 'C:/Users/yourname/Desktop/test.csv'

df = pd.read_csv(f, header = None)

i = 0
while i <= df.index.max():
    subset = df.loc[df[2] == 0].head(1)

    if subset[0].count() == 0:
        stock1ID, stock2ID, status = None, None, None

    else:
        stock1ID, stock2ID, status = subset[0].iloc[0], subset[1].iloc[0], subset[2].iloc[0]
        print '{}, {}, {}'.format(stock1ID, stock2ID, status)
        df.loc[df.index == subset.index[0], 2] = 1

    i += 1

df.to_csv('C:/Users/Pete/Desktop/test2.csv', header = None)

f='C:/Users/yourname/Desktop/test.csv'
df=pd.read\u csv（f，header=None）
i=0
当我尝试时：pairList.to_csv（os.path.join（TimeseriesDataPath，pattern），header=False）
谢谢bernie，使用，hea‌der=False我得到一个语法错误：标识符中的字符无效…有什么想法吗？感谢pshep123，我试图实现您的解决方案，但我得到了一个索引错误：索引越界异常，stock1ID，stock2ID，status=subset[0][0]，subset[1][0]，subset[2][0]如果是这样，最右边的列中没有一个值是0
。我将更新代码以进行测试。谢谢，每次迭代都会在csv（0,1,2,3,4，…）的前面添加一个索引列，因此它只适用于子集为df.loc[df[2]==0]的一次迭代。head（1）更新了我认为您需要的内容。我可以把它放在一个函数中并返回变量，但这会扼杀循环。Stacey，如果这至少有帮助的话，请投赞成票。如果不是答案，那是可以理解的。