Python 在matplotlib中获取每周时间序列数据的异常折线图_Python_Pandas_Matplotlib

Python 在matplotlib中获取每周时间序列数据的异常折线图

python pandas matplotlib

Python 在matplotlib中获取每周时间序列数据的异常折线图,python,pandas,matplotlib,Python,Pandas,Matplotlib,我有每周的汽车销售数据，我制作了不同汽车生产商的折线图。然而，我得到了一些不寻常的折线图，因为像12-31-xxxx和01-01-xxxx这样的第一天边距仍然保持在同一周内，这给了我一个意想不到的图。如果周数处于空白状态，我应该如何制作折线图？有没有更好的办法来解决这个问题？有人能告诉我怎么纠正这个问题吗？谢谢可复制数据和我的尝试 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns url = '

我有每周的汽车销售数据，我制作了不同汽车生产商的折线图。然而，我得到了一些不寻常的折线图，因为像

12-31-xxxx

和

01-01-xxxx

这样的第一天边距仍然保持在同一周内，这给了我一个意想不到的图。如果周数处于空白状态，我应该如何制作折线图？有没有更好的办法来解决这个问题？有人能告诉我怎么纠正这个问题吗？谢谢

可复制数据和我的尝试

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])

dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()

for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()

这是我用来制作折线图的

我的尝试

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])

dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()

for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()

电流输出

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])

dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()

for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()

以下是我从上述代码片段中获得的当前输出之一：

由于我使用了数据，它将每周更新一次，因此绘图也将与数据一致。但现在，由于周数错误，导致折线图出错。我认为，因为

12-31

和

01-01

共享同一周数，这就导致了问题。我该怎么解决这个问题？有什么想法吗？

可能不是完美的解决方案，但您可以转换周数，这样，一周的第一部分将持续到新年：

df['week']=df['date'].dt.strftime（'%W'）。astype（'uint8'）

或

'%U'

对于星期日开始的周，您可以使用：

df['week'] = np.select([(df['week'] == 53) & (df['date'].dt.month == 1),
                        (df['week'] == 53) & (df['date'].dt.month == 12)],
                        [1, 52], df['week'])

这将确保周为1或52。如图所示，2016年不再有自己的“第53周”。完整代码：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

url = 'https://gist.githubusercontent.com/adamFlyn/8a6378ff7c77b1af76d1cb33a018b329/raw/3b38168bd528ef9e7e2bfa1246b91bba1c1dc287/car_sales.csv'
df = pd.read_csv(url, parse_dates=['date'])
# df = df.rename({'Unnamed: 0' : 'date'}, axis=1)
df.drop('Unnamed: 0', axis=1, inplace=True)
df['date']= pd.to_datetime(df['date'])
df['week'] = np.select([(df['week'] == 53) & (df['date'].dt.month == 1),
                        (df['week'] == 53) & (df['date'].dt.month == 12)],
                        [1, 52], df['week'])
df
dfww = df.groupby(['company', 'week'])['product_sales_cnt'].agg(['max', 'min', 'mean']).stack().reset_index(level=[2]).rename(columns={'level_2': 'mm', 0: 'vals'}).reset_index()
for g, d in dfww.groupby('company'):
    fig, ax = plt.subplots(figsize=(7, 4), dpi=144)
    for year in df['year'].unique():
        data = df[(df.date.dt.year == year) & (df.company == g)]
        sns.lineplot(x='week', y='product_sales_cnt', ci=None, data=data, label=year)
plt.ylabel('product_sales_cnt')
plt.margins(x=0)
plt.tight_layout()
plt.grid(True)
plt.show()
plt.close()

根据评论：

谢谢你的提醒。让我们看看还能做些什么。谢谢，这是魅力解决方案！大加号++：）有点奇怪。为什么2021年没有策划或者我遗漏了什么？比方说，我将保留2018~2021年的折线图，

2021年的折线消失了。为什么？@Adam 2021年只有一个数据点。您将需要两个数据点，即数据中只有“第1周”。您以前在其中有一行，因为它是错误的52，所以您在第1周到第53周之间有一行。现在，就要到第一周了。有道理？