Python 熊猫从两个表创建新表
我必须连接两个表并创建一个带有日期的表,但是我的代码太长了,我相信我是用超长的方式完成的。显然,这个解决方案只有22行。有没有其他更简单的方法来解决这个问题。问题是 这是我的代码,我再次相信它太长了,我认为有一种更短的方法可以做到这一点Python 熊猫从两个表创建新表,python,pandas,csv,Python,Pandas,Csv,我必须连接两个表并创建一个带有日期的表,但是我的代码太长了,我相信我是用超长的方式完成的。显然,这个解决方案只有22行。有没有其他更简单的方法来解决这个问题。问题是 这是我的代码,我再次相信它太长了,我认为有一种更短的方法可以做到这一点 import numpy as np import pandas as pd import datetime #YOUR CODE GOES HERE# def get_month(i): """this function returns the n
import numpy as np
import pandas as pd
import datetime
#YOUR CODE GOES HERE#
def get_month(i):
"""this function returns the number of the month based on stringinput"""
if i == "January":
return 1
elif i == "February":
return 2
elif i == "March":
return 3
elif i == "April":
return 4
elif i == "May":
return 5
elif i == "June":
return 6
elif i == "July":
return 7
elif i == "August":
return 8
elif i == "September":
return 9
elif i == "October":
return 10
elif i == "November":
return 11
elif i == "December":
return 12
def get_reformatted_date(s):
"""this function reformats a datetime object to the output we're looking for"""
return s.strftime("%d-%b-%y")
month_names = []
tab1 = pd.read_csv("data1.csv")
tab2 = pd.read_csv("data2.csv")
tab1_tweets = tab1['Tweet'].tolist()[::-1]
tab2_tweets = tab2['Tweet'].tolist()[::-1]
tab1_months = tab1['Month'].tolist()[::-1]
tab2_months = tab2['Month'].tolist()[::-1]
tab1_days = tab1['Day'].tolist()[::-1]
tab2_days = tab2['Day'].tolist()[::-1]
tab1_years = tab1['Year'].tolist()[::-1]
tab2_years = tab2['Year'].tolist()[::-1]
all_dates = []
all_tweets = []
tab1_count = 0
tab2_count = 0
for i in range(len(tab1_tweets) + len(tab2_tweets)):
if(tab1_count < len(tab1_years) and tab2_count < len(tab2_years)):
t1_date = datetime.date(tab1_years[tab1_count], tab1_months[tab1_count], tab1_days[tab1_count])
t2_date = datetime.date(tab2_years[tab2_count], get_month(tab2_months[tab2_count]), tab2_days[tab2_count])
if t1_date > t2_date:
all_dates.append(t1_date)
all_tweets.append(tab1_tweets[tab1_count])
tab1_count += 1
else:
all_dates.append(t2_date)
all_tweets.append(tab2_tweets[tab2_count])
tab2_count += 1
elif(tab2_count < len(tab2_years)):
t2_date = datetime.date(tab2_years[tab2_count], get_month(tab2_months[tab2_count]), tab2_days[tab2_count])
all_dates.append(t2_date)
all_tweets.append(tab2_tweets[tab2_count])
tab2_count += 1
else:
t1_date = datetime.date(tab1_years[tab1_count], tab1_months[tab1_count], tab1_days[tab1_count])
all_dates.append(t1_date)
all_tweets.append(tab1_tweets[tab1_count])
tab1_count += 1
table_data = {'Date': all_dates, 'Tweet': all_tweets}
df = pd.DataFrame(table_data)
df['Date'] = df['Date'].apply(get_reformatted_date)
print(df)
data2.csv
是
Month Day Year Hour Tweet
January 2 2015 12 Happy New Year
March 21 2016 7 Today is my final
May 30 2017 23 Summer is about to begin
July 15 2018 11 Ocean is still cold
我认为从理论上讲,你可以用一句话来完成整个过程:
finaldf = (pd.concat([pd.read_csv('data1.csv',
parse_dates={'Date':['Year', 'Month', 'Day']}),
pd.read_csv('data2.csv',
parse_dates={'Date':['Year', 'Month', 'Day']})
[['Date', 'Tweet']]])
.sort_values('Date', ascending=False))
但为了便于阅读,最好将其分成几行:
df1 = pd.read_csv('data1.csv', parse_dates={'Date':['Year', 'Month','Day']})
df2 = pd.read_csv('data2.csv', parse_dates={'Date':['Year', 'Month','Day']})
finaldf = (pd.concat([df1, df2[['Date', 'Tweet']]])
.sort_values('Date', ascending=False))
我认为,对于您正在尝试做的事情,需要阅读的主要内容是pandas的parse_dates
参数,以及连接数据帧
编辑:为了以示例输出中的正确格式获取日期,您可以在上述代码之后使用以下命令调用此命令:
你不能复制和粘贴图片。我们有一个datetime.date()对象,它接收日期,但我不知道它们只存储日期,而不是打印日期。所以我使用s.strftime(“%d-%b-%y”)来打印它。我想还有一条更短的路。因为我把表格中的每一列都变成了一个列表,所以很难确认我的回答是否正确,因为你没有共享必须处理的csv。您能否共享csv或至少问题中可见的标题?请以文本形式发布
data1.csv
和data2.csv
。然后人们可以剪切粘贴它来帮助你哦,对不起,让我把它改成文本是的,它可以工作,但我认为日期格式是错误的,因为我们必须使用pandas.datetime()并生成上面图表中显示的日期。我认为使用datetime()可以打印,但我不知道它存储了值。所以我认为我们必须创建一个新的列表,以便它能够存储它?请参阅我的编辑,您可以添加最后一行。这不是做事情的唯一方法,您可能会想出一种使用pd.to_datetime()
的方法,但我相信这是一种有效的方法来获得您想要的东西!我明白了。是啊,我的路走了很久b/c我不得不把一切都变成弦。。非常感谢。
df1 = pd.read_csv('data1.csv', parse_dates={'Date':['Year', 'Month','Day']})
df2 = pd.read_csv('data2.csv', parse_dates={'Date':['Year', 'Month','Day']})
finaldf = (pd.concat([df1, df2[['Date', 'Tweet']]])
.sort_values('Date', ascending=False))
finaldf['Date'] = finaldf['Date'].dt.strftime('%d-%b-%y')