Python 创建包含表
我正试图用熊猫做一个包含表,因为我对这门语言还不熟悉,所以我非常困惑。我正在处理facebook数据 以下是我掌握的数据样本: 以下是用户的集合,其中包含他们喜欢的所有页面Python 创建包含表,python,pandas,dataframe,Python,Pandas,Dataframe,我正试图用熊猫做一个包含表,因为我对这门语言还不熟悉,所以我非常困惑。我正在处理facebook数据 以下是我掌握的数据样本: 以下是用户的集合,其中包含他们喜欢的所有页面 id pageid1 pageid2 pageid3 10 123 456 789 11 478 166 356 ... 12 984 456 789 13 166 356
id pageid1 pageid2 pageid3
10 123 456 789
11 478 166 356 ...
12 984 456 789
13 166 356 123
...
我也有一个最受欢迎的网页列表,所以
pop_page1: 123
pop_page2: 456
pop_page3: 789
...
因此,“pop_page1”是我的数据集中用户最喜欢的页面
当我做完后,我希望它看起来像这样
individual pop_page1 pop_page2 pop_page3 (etc)
10 True True True
12 False True True
13 False False True
(etc)
基本上,我想看看每个用户是否都喜欢最流行的页面,而我不知道如何在Pandas中(或在python中以本机方式)做到这一点,而不会弄乱数据)您想使用
DataFrame.isin()
:
在你的问题中,我不清楚流行页面是如何存储的。我只是列出了一个列表,但是如果它是一个
dict
,您可以使用.values()
方法来获取它们。什么是“包含表”?您是否可以修改您的问题以包含您已经尝试过的内容的副本/可复制版本?最后,你能解释一下pop_pageN
与pageidX
的关系吗?(很明显,id
映射到了individual
,但我也会清理一下)。哇,这正是我需要的。我想我只是在文档中没有看到。顺便说一句,它们存储在一个列表中。谢谢!
In [12]: df
Out[12]:
pageid1 pageid2 pageid3
id
10 123 456 789
11 478 166 356
12 984 456 789
13 166 356 123
[4 rows x 3 columns]
In [13]: pages
Out[13]: [123, 456, 789]
In [14]: df.isin(pages)
Out[14]:
pageid1 pageid2 pageid3
id
10 True True True
11 False False False
12 False True True
13 False False True
[4 rows x 3 columns]