Python 熊猫-筛选数据集并将其组合

Python 熊猫-筛选数据集并将其组合,python,pandas,Python,Pandas,我正在从澳大利亚的ABS中筛选祖先。 我的祖先数据如下 allvic_url='ABS_CENSUS2011_T09/TOT+1+2+3+4+Z.TOT+TOTP+1101+1102+6101+3204+2303+2101+5201+2305+2306+3205+3304+7106+2201+3103+6902+4106+3206+3104+1201+1202+3307+3308+2102+3213+7115+9215+3106+4907+5107+2103+OTH+Z.2.SA2..A/all

我正在从澳大利亚的ABS中筛选祖先。 我的祖先数据如下

allvic_url='ABS_CENSUS2011_T09/TOT+1+2+3+4+Z.TOT+TOTP+1101+1102+6101+3204+2303+2101+5201+2305+2306+3205+3304+7106+2201+3103+6902+4106+3206+3104+1201+1202+3307+3308+2102+3213+7115+9215+3106+4907+5107+2103+OTH+Z.2.SA2..A/all?detail=Full&dimensionAtObservation=AllDimensions'
然后,我在使用较新的2016年数据集显示祖先随时间的变化时遇到了问题,因为api非常混乱。。。在这里(作为一个数据点,我想尝试展示郊区的人口统计是如何变化的)

我的目标输出是郊区级别的数据帧,它显示了祖先随时间的变化。如果api能给我更多的历史数据,那也会很好

Suburb  Ancestry Main   Ancestry Secondary  Ancestry increased most Percentage increase 2016-2011   
(即,显示祖先平均数为中国人,adn随时间变化x%)

非常感谢您对解决此问题的帮助-谢谢

我相信(至少部分)您要问的问题是如何使用正则表达式过滤熊猫数据帧。对于数据,我使用了您在阵列中提供的一些场地值。对于您的用例,这将按如下方式进行:

从导入数据帧
df_与_场馆=数据帧(
{
“场馆类别”:[
“Speakeasy”,
“精品店”,
“秘鲁餐厅”,
“面包店”,
“越南餐厅”,
“亚洲餐厅”,
“酒店”,
“威士忌酒吧”,
“街头艺术”,
“意大利餐厅”,
“书店”,
“法国餐厅”,
“咖啡馆”,
“寿司餐厅”,
“澳大利亚餐厅”,
“印度餐厅”,
“咖啡馆”,
“酒吧”,
“酒吧”,
“剧院”,
“烧烤店”,
“汉堡店”,
]
}
)
regex_filter_vironments=df_with_vironments[df_with_vironments[“场馆类别”]。str.match(r.“*餐厅”)]

您在问题中指定希望使用restaurant,因此我在这个解决方案中提供了它,但是您应该能够用任何有效的正则表达式替换字符串“.*restaurant”。如果有人需要,也可以参考pandas regex的文档,还有一个关于使用pandas regex的不同方法的优秀教程

最好提供代码示例。但是,它们不仅仅是可复制的(复制和粘贴),而且包含更多的细节来分散问题的注意力。我建议将重点放在一个最小的示例上,以硬编码值作为输入示例,您将得到什么以及您实际想要得到什么。正如@de1已经写的那样。请添加一个,特别是预期的输出。将做-将在今晚晚些时候回来并更新答案您似乎在问几个问题。我强烈建议你把这些问题分成不同的问题。例如,如果您提供了详细信息,“当尝试为餐厅和其他场所(如电影院)创建一个按郊区计数的新列时,我在尝试使用正则表达式过滤餐厅的场所类别时出错。”--这是一个我可以帮助解决的问题。把这个问题分成几个部分,你就更有可能得到答案。嗨,你能不能为你的数据创建一个简单的复制粘贴示例,比如5-10行,以及你希望从中得到的输出(也可以作为复制粘贴表)?通过我们可以直接使用的数据,更容易理解您想要什么。作为参考,这是对最初发布的部分问题的回答,OP对其进行了更改@迈克尔·霍尔伯恩,如果你把问题换回原来的形式,可能会有帮助,因为其他人看到这个问题会非常困惑