这是在Python中使用pandas的好例子吗？_Python_Pandas_Summarization

这是在Python中使用pandas的好例子吗？

python pandas

这是在Python中使用pandas的好例子吗？,python,pandas,summarization,Python,Pandas,Summarization,我正在用Python对MSSQL进行数据库调用（我在Linux上）。在最终完成所有的DEP之后，我的呼叫通常在每次拉取时运行大约1000000条记录。（数据库详细说明了问题、遇到的城市和解决方案）记录集看起来像这样。。。。。（我只包括相关栏目）我需要做的是计算唯一的描述，在每个描述下计算唯一的城市，在城市下计算唯一的解决方案我是Python的新手（但我越喜欢它，我就越喜欢它），在过去使用另一种语言时，我可能会将整个记录集导出到SQLite，然后使用标准SQL进行总结这似乎是一个迫切需要

我正在用Python对MSSQL进行数据库调用（我在Linux上）。在最终完成所有的DEP之后，我的呼叫通常在每次拉取时运行大约1000000条记录。（数据库详细说明了问题、遇到的城市和解决方案）

记录集看起来像这样。。。。。（我只包括相关栏目）

我需要做的是计算唯一的描述，在每个描述下计算唯一的城市，在城市下计算唯一的解决方案

我是Python的新手（但我越喜欢它，我就越喜欢它），在过去使用另一种语言时，我可能会将整个记录集导出到SQLite，然后使用标准SQL进行总结

这似乎是一个迫切需要解决方案的解决方案，但由于我仍在学习Python，因此我缺乏关于这类操作的最佳工具的知识

有没有人可以插嘴这个话题，甚至可以为我指出正确的方向？

-JW

如果不知道您的数据（类型等）是什么样子，我就无法提供代码示例。但我认为你最好使用它，因为你只需要一个独特的数据计数。你的计数正好是设定的长度

在这方面，一个集合将比熊猫更快。

为什么不直接使用数据库查询来获取您想要的信息呢？@7stud，我正在使用T-SQL对MSSQL进行查询，MSSQL的速度非常慢，并且添加了只会将其研磨到超时的位置。只要拉取整个数据集就更快了。关于：

COUNT（{[[ALL | DISTINCT]expression].*}）OVER（[partition_by_子句]order_by_子句）

-->。。。这能让我在一份声明中实现吗？否则，首选python解决方案。

Description, City, Solution
Won't Start, Denver, Replace Spark Plugs
Won't Start, Chicago, Add Gas
Light Out, Denver, Replace Bulb
Flat Tire, New York, Change Tire
...
...