Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/database/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 设置(标签、值)之间的距离_Python_Database_Pandas_Seaborn - Fatal编程技术网

Python 设置(标签、值)之间的距离

Python 设置(标签、值)之间的距离,python,database,pandas,seaborn,Python,Database,Pandas,Seaborn,我必须提到,我是一个处理数据帧的初学者,我非常感谢任何提示:) 我有一个数据框,包含文件名及其大小(~8000条记录)。我试图找出哪些文件可以删除或移动。所以我试着画出名字和大小 问题: 标签和(很可能线条也重叠,即使我使用了linewidthproperty) 基本上,我使用的代码 >>> g = sns.barplot(y='size',x='files',data=df) >>> for item in g.get_xticklabels(): ...

我必须提到,我是一个处理数据帧的初学者,我非常感谢任何提示:)

我有一个数据框,包含文件名及其大小(~8000条记录)。我试图找出哪些文件可以删除或移动。所以我试着画出名字和大小

问题:

标签和(很可能线条也重叠,即使我使用了
linewidth
property)

基本上,我使用的代码

>>> g = sns.barplot(y='size',x='files',data=df)
>>> for item in g.get_xticklabels():
...     item.set_rotation(45)
结果

samller示例上具有
线宽属性的代码

>>> g = sns.barplot(y='size',x='files',data=dfs, linewidth=2)
>>> for item in g.get_xticklabels():
...     item.set_rotation(90)
结果


我正在使用python3.5和OS 10.11.6,正如我在评论中所说的,我不认为图形是最好的方法。首先,我将简化数据帧以获得每个文件的平均大小:

average_size = df.groupby('files')['size'].mean()
然后,您可以使用以下工具获取前10个文件(例如):


正如我在评论中所说的,我认为图表不是最好的方法。首先,我将简化数据帧以获得每个文件的平均大小:

average_size = df.groupby('files')['size'].mean()
然后,您可以使用以下工具获取前10个文件(例如):


这听起来不是解决你问题的正确方法。您将如何决定删除哪些文件?选择最大的文件,然后决定将这些文件移动到其他地方,或者在它们不再有用时删除它们。简单地总结一下,这是我的大学账户x_x的问题!这听起来不是解决你问题的正确方法。您将如何决定删除哪些文件?选择最大的文件,然后决定将这些文件移动到其他地方,或者在它们不再有用时删除它们。简单地总结一下,这是我的大学账户x_x的问题!谢谢你,这帮助了我很多:)虽然我有一个问题,但是你能给我一个关于第一个命令语法的提示吗,因为
groupby
方法的键在括号内。i、 例如:我不理解命令中的
['size']
部分,我也能够通过命令获得类似的结果:
df.groupby('files').aggregate(sum)
。这就是为什么我问:)谢谢你在
groupby
之后添加
['size']
限制了输出的列。我添加了这个,以防您的原始数据框有许多其他列,但如果没有它,它也可以工作。我同意绘图并不是从这个大集合中选择特定文件的最佳方式,但最好制作一个大小的柱状图,以便了解分布情况。@mwaskom同意,您想添加一个答案吗,或者我应该编辑我的命令吗?谢谢,这帮助很大:)虽然我有一个问题,但是你能给我一个关于第一个命令语法的提示吗,因为
groupby
方法的键在括号内。i、 例如:我不理解命令中的
['size']
部分,我也能够通过命令获得类似的结果:
df.groupby('files').aggregate(sum)
。这就是为什么我问:)谢谢你在
groupby
之后添加
['size']
限制了输出的列。我添加了这个,以防您的原始数据框有许多其他列,但如果没有它,它也可以工作。我同意绘图并不是从这个大集合中选择特定文件的最佳方式,但最好制作一个大小的柱状图,以便了解分布情况。@mwaskom同意,您想添加一个答案吗,还是编辑我的?