Python 熊猫-筛选数据集并将其组合_Python_Pandas

Python 熊猫-筛选数据集并将其组合

python pandas

Python 熊猫-筛选数据集并将其组合,python,pandas,Python,Pandas,我正在从澳大利亚的ABS中筛选祖先。我的祖先数据如下 allvic_url='ABS_CENSUS2011_T09/TOT+1+2+3+4+Z.TOT+TOTP+1101+1102+6101+3204+2303+2101+5201+2305+2306+3205+3304+7106+2201+3103+6902+4106+3206+3104+1201+1202+3307+3308+2102+3213+7115+9215+3106+4907+5107+2103+OTH+Z.2.SA2..A/all

我正在从澳大利亚的ABS中筛选祖先。我的祖先数据如下

allvic_url='ABS_CENSUS2011_T09/TOT+1+2+3+4+Z.TOT+TOTP+1101+1102+6101+3204+2303+2101+5201+2305+2306+3205+3304+7106+2201+3103+6902+4106+3206+3104+1201+1202+3307+3308+2102+3213+7115+9215+3106+4907+5107+2103+OTH+Z.2.SA2..A/all?detail=Full&dimensionAtObservation=AllDimensions'

然后，我在使用较新的2016年数据集显示祖先随时间的变化时遇到了问题，因为api非常混乱。。。在这里（作为一个数据点，我想尝试展示郊区的人口统计是如何变化的）

我的目标输出是郊区级别的数据帧，它显示了祖先随时间的变化。如果api能给我更多的历史数据，那也会很好

Suburb  Ancestry Main   Ancestry Secondary  Ancestry increased most Percentage increase 2016-2011

（即，显示祖先平均数为中国人，adn随时间变化x%）

非常感谢您对解决此问题的帮助-谢谢

我相信（至少部分）您要问的问题是如何使用正则表达式过滤熊猫数据帧。对于数据，我使用了您在阵列中提供的一些场地值。对于您的用例，这将按如下方式进行：

从导入数据帧
df_与_场馆=数据帧(
{
“场馆类别”：[
“Speakeasy”，
“精品店”，
“秘鲁餐厅”，
“面包店”，
“越南餐厅”，
“亚洲餐厅”，
“酒店”，
“威士忌酒吧”，
“街头艺术”，
“意大利餐厅”，
“书店”，
“法国餐厅”，
“咖啡馆”，
“寿司餐厅”，
“澳大利亚餐厅”，
“印度餐厅”，
“咖啡馆”，
“酒吧”，
“酒吧”，
“剧院”，
“烧烤店”，
“汉堡店”，
]
}
)
regex_filter_vironments=df_with_vironments[df_with_vironments[“场馆类别”]。str.match（r.“*餐厅”）]

您在问题中指定希望使用restaurant，因此我在这个解决方案中提供了它，但是您应该能够用任何有效的正则表达式替换字符串“.*restaurant”。如果有人需要，也可以参考pandas regex的文档，还有一个关于使用pandas regex的不同方法的优秀教程

最好提供代码示例。但是，它们不仅仅是可复制的（复制和粘贴），而且包含更多的细节来分散问题的注意力。我建议将重点放在一个最小的示例上，以硬编码值作为输入示例，您将得到什么以及您实际想要得到什么。正如@de1已经写的那样。请添加一个，特别是预期的输出。将做-将在今晚晚些时候回来并更新答案您似乎在问几个问题。我强烈建议你把这些问题分成不同的问题。例如，如果您提供了详细信息，“当尝试为餐厅和其他场所（如电影院）创建一个按郊区计数的新列时，我在尝试使用正则表达式过滤餐厅的场所类别时出错。”--这是一个我可以帮助解决的问题。把这个问题分成几个部分，你就更有可能得到答案。嗨，你能不能为你的数据创建一个简单的复制粘贴示例，比如5-10行，以及你希望从中得到的输出（也可以作为复制粘贴表）？通过我们可以直接使用的数据，更容易理解您想要什么。作为参考，这是对最初发布的部分问题的回答，OP对其进行了更改@迈克尔·霍尔伯恩，如果你把问题换回原来的形式，可能会有帮助，因为其他人看到这个问题会非常困惑