Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/335.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何处理与数据帧关联的元数据?_Python_Pandas_Metadata_Finance_Divide - Fatal编程技术网

Python 如何处理与数据帧关联的元数据?

Python 如何处理与数据帧关联的元数据?,python,pandas,metadata,finance,divide,Python,Pandas,Metadata,Finance,Divide,Q1:将元信息保存到数据帧的最佳实践是什么?我知道下面的编码实践 import pandas as pd df = pd.DataFrame([]) df.currency = 'USD' df.measure = 'Price' df.frequency = 'daily' 但正如本文所述,这与应用诸如“groupby、pivot、join或loc”之类的函数而丢失信息的风险有关,因为它们可能返回“一个没有附加元数据的新数据帧” 这是否仍然有效,或者在此期间是否对元信息处理进行了更新?为此目

Q1:将元信息保存到数据帧的最佳实践是什么?我知道下面的编码实践

import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'
但正如本文所述,这与应用诸如“groupby、pivot、join或loc”之类的函数而丢失信息的风险有关,因为它们可能返回“一个没有附加元数据的新数据帧”

这是否仍然有效,或者在此期间是否对元信息处理进行了更新?为此目的,将pandas子类化是一种良好的编码实践吗

Q2:什么是替代编码实践

我不认为建立一个单独的对象是非常合适的。同时使用多索引也不能说服我。假设我想把一个有价格的数据框除以一个有收益的数据框。使用多重索引将非常复杂

#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)

# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
    [['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]], 
                columns=e_index)

price.divide(earnings.values, level=1, axis=0)
在上面的例子中,我甚至不能确保公司指数真的匹配。我可能需要调用pd.DataFrame.reindex()或类似的函数。在我看来,这不是一个好的编码实践

有没有一个简单的解决方案来解决在这种情况下处理元信息的问题,我看不到


提前谢谢你

我认为多索引是一条路要走,但这样:

daily_price_data = pd.DataFrame({'Apple': [90, 85, 30], 'MSFT':[20, 30, 25]})
daily_earnings_data = pd.DataFrame({'Apple': [5000, 58000, 5100], 'MSFT':[2000, 2200, 3000]})
data = pd.concat({'price':daily_price_data, 'earnings': daily_earnings_data}, axis=1)
data


    earnings        price
    Apple   MSFT    Apple   MSFT
0   5000    2000    90      20
1   58000   2200    85      30
2   5100    3000    30      25
然后,划分:

data['price'] / data['earnings']
如果您发现将公司列在索引的第一级更有意义,那么将非常有帮助:

data2 = data.reorder_levels([1,0], axis=1).sort_index(axis=1)
data2.xs('price', axis=1, level=-1) / data2.xs('earnings', axis=1, level=-1)

尽管构建自定义对象不是您的第一选择,但它可能是您唯一可行的选择,并且具有极其灵活的显著优势。下面是一个非常简单的例子:

df=pd.DataFrame({'stock': 'AAPL AAPL MSFT MSFT'.split(),
                 'price':[ 445.,455.,195.,205.]})

col_labels = { 'stock' : 'Ticker Symbol',
               'price' : 'Closing Price in USD' }
这只是列标签的字典,但大多数元数据通常与特定列相关。以下是带有标签的示例数据:

df.rename(columns=col_labels)

#   Ticker Symbol  Closing Price in USD
# 0          AAPL                 445.0
# 1          AAPL                 455.0
# 2          MSFT                 195.0
# 3          MSFT                 205.0
很好的一点是,标签“持久化”,即您基本上可以将其应用于列为原始列的子集或超集的任何数据:

df.groupby('stock').mean().rename(columns=col_labels)

#        Closing Price in USD
# stock                      
# AAPL                  450.0
# MSFT                  200.0
如果使用
attrs
属性,可以获得一些有限的持久性:

df.attrs = col_labels
但这是相当有限的。对于通过
.copy()
loc[]
iloc[]
派生的数据帧,它将保持不变,但对于
groupby()
则不会保持不变。当然,您可以重新附加到任何派生数据帧,例如

df2.attrs = df.attrs
但是,正如本文所述(或缺乏),这是一个实验性特征,可能会发生变化。看起来总比没有好一点,也许将来会扩大。我找不到关于
attrs
的太多信息,但它似乎被初始化为一个空字典,只能是一个字典(或类似的),当然列表可以嵌套在顶层之下