Python 3.x pandas.dataframe.astype未转换数据类型_Python 3.x_Pandas_Dataframe_Categorical Data

Python 3.x pandas.dataframe.astype未转换数据类型

python-3.x pandas dataframe

Python 3.x pandas.dataframe.astype未转换数据类型,python-3.x,pandas,dataframe,categorical-data,Python 3.x,Pandas,Dataframe,Categorical Data,我正在尝试将一些列从对象转换为分类列 # dtyp_cat = 'category' # mapper = {'Segment':dtyp_cat, # "Sub-Category":dtyp_cat, # "Postal Code":dtyp_cat, # "Region":dtyp_cat,

我正在尝试将一些列从对象转换为分类列

    # dtyp_cat = 'category'
        # mapper = {'Segment':dtyp_cat,
        #           "Sub-Category":dtyp_cat,
        #           "Postal Code":dtyp_cat,
        #           "Region":dtyp_cat,
        #          }
    
    df.astype({'Segment':'category'})
    df.dtypes

但输出仍然是对象类型

数据集位于：

url = r"https://raw.githubusercontent.com/jaegarbomb/TSF_GRIP/main/Retail_EDA/Superstore.csv"
df = pd.read_csv(url)

这样做：

df['Segment'] = df.Segment.astype('category')

RangeIndex: 9994 entries, 0 to 9993
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   Ship Mode     9994 non-null   object  
 1   Segment       9994 non-null   category
 2   Country       9994 non-null   object  
 3   City          9994 non-null   object  
 4   State         9994 non-null   object  
 5   Postal Code   9994 non-null   int64   
 6   Region        9994 non-null   object  
 7   Category      9994 non-null   object  
 8   Sub-Category  9994 non-null   object  
 9   Sales         9994 non-null   float64 
 10  Quantity      9994 non-null   int64   
 11  Discount      9994 non-null   float64 
 12  Profit        9994 non-null   float64 
dtypes: category(1), float64(3), int64(2), object(7)
memory usage: 946.9+ KB

编辑

如果您想转换多个列（在您的例子中，我假设所有列都是对象，那么您需要删除那些不是对象的列，转换剩下的列，然后重新连接其他列）

df2 = df.drop([ 'Postal Code', 'Sales', 'Quantity', 'Discount', 'Profit'], axis=1)
df3 = df2.apply(lambda x: x.astype('category'))

给

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9994 entries, 0 to 9993
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype   
---  ------        --------------  -----   
 0   Ship Mode     9994 non-null   category
 1   Segment       9994 non-null   category
 2   Country       9994 non-null   category
 3   City          9994 non-null   category
 4   State         9994 non-null   category
 5   Region        9994 non-null   category
 6   Category      9994 non-null   category
 7   Sub-Category  9994 non-null   category
dtypes: category(8)
memory usage: 115.2 KB

谢谢，这很管用，但我希望有一个多列解决方案，这样我就可以一次替换多列。我的代码在你这方面也不管用吗-(

df4 = pd.concat([df3, df], axis=1, sort=False)
df_final = df4.loc[:,~df4.columns.duplicated()]