Python 在matplotlib中获取每周时间序列数据的异常折线图

Python 在matplotlib中获取每周时间序列数据的异常折线图,python,pandas,matplotlib,Python,Pandas,Matplotlib,我有每周的汽车销售数据,我制作了不同汽车生产商的折线图。然而,我得到了一些不寻常的折线图,因为像12-31-xxxx和01-01-xxxx这样的第一天边距仍然保持在同一周内,这给了我一个意想不到的图。如果周数处于空白状态,我应该如何制作折线图?有没有更好的办法来解决这个问题?有人能告诉我怎么纠正这个问题吗?谢谢 可复制数据和我的尝试 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns url = '

我有每周的汽车销售数据,我制作了不同汽车生产商的折线图。然而,我得到了一些不寻常的折线图,因为像
12-31-xxxx
01-01-xxxx
这样的第一天边距仍然保持在同一周内,这给了我一个意想不到的图。如果周数处于空白状态,我应该如何制作折线图?有没有更好的办法来解决这个问题?有人能告诉我怎么纠正这个问题吗?谢谢

可复制数据和我的尝试

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])

dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()

for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()
这是我用来制作折线图的

我的尝试

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])

dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()

for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()
电流输出

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])

dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()

for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()
以下是我从上述代码片段中获得的当前输出之一:


由于我使用了数据,它将每周更新一次,因此绘图也将与数据一致。但现在,由于周数错误,导致折线图出错。我认为,因为
12-31
01-01
共享同一周数,这就导致了问题。我该怎么解决这个问题?有什么想法吗?

可能不是完美的解决方案,但您可以转换周数,这样,一周的第一部分将持续到新年:
df['week']=df['date'].dt.strftime('%W')。astype('uint8')
'%U'
对于星期日开始的周,您可以使用:

df['week'] = np.select([(df['week'] == 53) & (df['date'].dt.month == 1),
                        (df['week'] == 53) & (df['date'].dt.month == 12)],
                        [1, 52], df['week'])
这将确保周为1或52。如图所示,2016年不再有自己的“第53周”。完整代码:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])
df['week'] = np.select([(df['week'] == 53) & (df['date'].dt.month == 1),
                        (df['week'] == 53) & (df['date'].dt.month == 12)],
                        [1, 52], df['week'])
df
dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()
for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()

根据评论:


谢谢你的提醒。让我们看看还能做些什么。谢谢,这是魅力解决方案!大加号++:)有点奇怪。为什么2021年没有策划或者我遗漏了什么?比方说,我将保留2018~2021年的折线图,
2021年的折线消失了。为什么?@Adam 2021年只有一个数据点。您将需要两个数据点,即数据中只有“第1周”。您以前在其中有一行,因为它是错误的52,所以您在第1周到第53周之间有一行。现在,就要到第一周了。有道理?