Python 熊猫从两个表创建新表_Python_Pandas_Csv

Python 熊猫从两个表创建新表

python pandas csv

Python 熊猫从两个表创建新表,python,pandas,csv,Python,Pandas,Csv,我必须连接两个表并创建一个带有日期的表，但是我的代码太长了，我相信我是用超长的方式完成的。显然，这个解决方案只有22行。有没有其他更简单的方法来解决这个问题。问题是这是我的代码，我再次相信它太长了，我认为有一种更短的方法可以做到这一点 import numpy as np import pandas as pd import datetime #YOUR CODE GOES HERE# def get_month(i): """this function returns the n

我必须连接两个表并创建一个带有日期的表，但是我的代码太长了，我相信我是用超长的方式完成的。显然，这个解决方案只有22行。有没有其他更简单的方法来解决这个问题。问题是

这是我的代码，我再次相信它太长了，我认为有一种更短的方法可以做到这一点

import numpy as np
import pandas as pd
import datetime

#YOUR CODE GOES HERE#

def get_month(i):
    """this function returns the number of the month based on stringinput"""
    if i == "January":
        return 1
    elif i == "February":
        return 2
    elif i == "March":
        return 3
    elif i == "April":
        return 4
    elif i == "May":
        return 5
    elif i == "June":
        return 6
    elif i == "July":
        return 7
    elif i == "August":
        return 8
    elif i == "September":
        return 9
    elif i == "October":
        return 10
    elif i == "November":
        return 11
    elif i == "December":
        return 12

def get_reformatted_date(s):
    """this function reformats a datetime object to the output we're looking for"""
    return s.strftime("%d-%b-%y")


month_names = []
tab1 = pd.read_csv("data1.csv")
tab2 = pd.read_csv("data2.csv")
tab1_tweets = tab1['Tweet'].tolist()[::-1]
tab2_tweets = tab2['Tweet'].tolist()[::-1]
tab1_months = tab1['Month'].tolist()[::-1]
tab2_months = tab2['Month'].tolist()[::-1]
tab1_days = tab1['Day'].tolist()[::-1]
tab2_days = tab2['Day'].tolist()[::-1]
tab1_years = tab1['Year'].tolist()[::-1]
tab2_years = tab2['Year'].tolist()[::-1]
all_dates = []
all_tweets = []
tab1_count = 0
tab2_count = 0
for i in range(len(tab1_tweets) + len(tab2_tweets)):
    if(tab1_count < len(tab1_years) and tab2_count < len(tab2_years)):
        t1_date = datetime.date(tab1_years[tab1_count], tab1_months[tab1_count], tab1_days[tab1_count])
        t2_date = datetime.date(tab2_years[tab2_count], get_month(tab2_months[tab2_count]), tab2_days[tab2_count])
        if t1_date > t2_date:
            all_dates.append(t1_date)
            all_tweets.append(tab1_tweets[tab1_count])
            tab1_count += 1
        else:
            all_dates.append(t2_date)
            all_tweets.append(tab2_tweets[tab2_count])
            tab2_count += 1
    elif(tab2_count < len(tab2_years)):
        t2_date = datetime.date(tab2_years[tab2_count], get_month(tab2_months[tab2_count]), tab2_days[tab2_count])
        all_dates.append(t2_date)
        all_tweets.append(tab2_tweets[tab2_count])
        tab2_count += 1
    else:
        t1_date = datetime.date(tab1_years[tab1_count], tab1_months[tab1_count], tab1_days[tab1_count])
        all_dates.append(t1_date)
        all_tweets.append(tab1_tweets[tab1_count])
        tab1_count += 1

table_data = {'Date': all_dates, 'Tweet': all_tweets}
df = pd.DataFrame(table_data)
df['Date'] = df['Date'].apply(get_reformatted_date)
print(df)

data2.csv

是

Month   Day Year    Hour    Tweet
January 2   2015    12  Happy New Year
March   21  2016    7   Today is my final
May     30  2017    23  Summer is about to begin
July    15  2018    11  Ocean is still cold

我认为从理论上讲，你可以用一句话来完成整个过程：

finaldf = (pd.concat([pd.read_csv('data1.csv',
                            parse_dates={'Date':['Year', 'Month', 'Day']}),
                      pd.read_csv('data2.csv',
                            parse_dates={'Date':['Year', 'Month', 'Day']})
                      [['Date', 'Tweet']]])
            .sort_values('Date', ascending=False))

但为了便于阅读，最好将其分成几行：

df1 = pd.read_csv('data1.csv', parse_dates={'Date':['Year', 'Month','Day']})
df2 = pd.read_csv('data2.csv', parse_dates={'Date':['Year', 'Month','Day']})

finaldf = (pd.concat([df1, df2[['Date', 'Tweet']]])
          .sort_values('Date', ascending=False))

我认为，对于您正在尝试做的事情，需要阅读的主要内容是pandas的

parse_dates

参数，以及连接数据帧

编辑：为了以示例输出中的正确格式获取日期，您可以在上述代码之后使用以下命令调用此命令：

你不能复制和粘贴图片。我们有一个datetime.date（）对象，它接收日期，但我不知道它们只存储日期，而不是打印日期。所以我使用s.strftime（“%d-%b-%y”）来打印它。我想还有一条更短的路。因为我把表格中的每一列都变成了一个列表，所以很难确认我的回答是否正确，因为你没有共享必须处理的csv。您能否共享csv或至少问题中可见的标题？请以文本形式发布

data1.csv

和

data2.csv

。然后人们可以剪切粘贴它来帮助你哦，对不起，让我把它改成文本是的，它可以工作，但我认为日期格式是错误的，因为我们必须使用pandas.datetime（）并生成上面图表中显示的日期。我认为使用datetime（）可以打印，但我不知道它存储了值。所以我认为我们必须创建一个新的列表，以便它能够存储它？请参阅我的编辑，您可以添加最后一行。这不是做事情的唯一方法，您可能会想出一种使用

pd.to_datetime（）

的方法，但我相信这是一种有效的方法来获得您想要的东西！我明白了。是啊，我的路走了很久b/c我不得不把一切都变成弦。。非常感谢。

df1 = pd.read_csv('data1.csv', parse_dates={'Date':['Year', 'Month','Day']})
df2 = pd.read_csv('data2.csv', parse_dates={'Date':['Year', 'Month','Day']})

finaldf = (pd.concat([df1, df2[['Date', 'Tweet']]])
          .sort_values('Date', ascending=False))

finaldf['Date'] = finaldf['Date'].dt.strftime('%d-%b-%y')