Python 交互式条件直方图桶切片数据可视化_Python_Pandas_Data Visualization_Seaborn_Bokeh

Python 交互式条件直方图桶切片数据可视化

python pandas

Python 交互式条件直方图桶切片数据可视化,python,pandas,data-visualization,seaborn,bokeh,Python,Pandas,Data Visualization,Seaborn,Bokeh,我有一个df，看起来像： df.head() Out[1]: A B C city0 40 12 73 city1 65 56 10 city2 77 58 71 city3 89 53 49 city4 33 98 90 示例df可通过以下代码创建： df = pd.DataFrame(np.random.randint(100,size=(1000000,3)), columns=list('ABC')) indx = ['

我有一个df，看起来像：

df.head()
Out[1]:
        A   B   C
city0   40  12  73
city1   65  56  10
city2   77  58  71
city3   89  53  49
city4   33  98  90

示例df可通过以下代码创建：

df = pd.DataFrame(np.random.randint(100,size=(1000000,3)), columns=list('ABC'))

indx = ['city'+str(x) for x in range(0,1000000)]
df.index = indx

我想做的是：

a）为a列确定适当的直方图桶长度，并为a列的每个城市分配一个桶

b）为b列确定适当的直方图桶长度，并将每个城市分配给b列的桶

也许由此产生的df看起来像（或者熊猫有更好的内置方式吗？）

其中，Abkt和Bbkt是直方图桶标识符：

1-20 = 1
21-40 = 2
41-60 = 3
61-80 = 4
81-100 = 5

最后，我想更好地了解每个城市在A、B和C栏中的行为，并能够回答以下问题：

a）列a（或B）的分布是什么样的？即，哪些存储桶填充最多/最少

b）以列a的特定切片/存储桶为条件，列b的分布是什么样的？即，哪些存储桶填充最多/最少

c）以列a和B的特定片/桶为条件，c的行为是什么样子的

理想情况下，我希望能够可视化数据（热图、区域标识符等）。我是一个相对的熊猫/巨蟒新手，不知道可以开发什么

如果SO社区能够提供代码示例，说明我如何做我想做的事情（或者如果有更好的pandas/numpy/scipy内置方法，则提供更好的方法），我将不胜感激

此外，任何指向资源的指针都可以帮助我更好地总结/分割数据，并能够在我继续分析时在中间步骤可视化

更新：

我正在遵循评论中的一些建议

我试过：

1）

df.hist（）

2）

df[['A']].hist（箱子=10，范围=（0,10））

array（[[]，dtype=object）

#2

不应该显示一个绘图吗？而不是生成未渲染的对象？我正在使用jupyter笔记本电脑

是否需要在

Jupyter Notebook

中打开/启用某些功能来渲染直方图对象

更新2:

我通过以下方法解决了渲染问题：

更新3:

根据评论中的建议，我开始仔细查看，然后。然而，我不确定如何在绘图之间创建链接

假设我有10个变量。我想探索它们，但由于10是一个需要同时探索的大数字，让我们假设我想在任何给定的时间（r、s、t、u、v）探索5

如果我想要一个带有边缘分布的交互式hexbin图来检查r&s之间的关系，我如何看到给定交互区域选择/r&s切片（多边形）的t、u和v的分布

我在这里找到了具有边缘分布图的hexbin：

但是：

1）如何使此交互（允许选择多边形）

2）如何将r&s的区域选择链接到其他图，例如t、u和v的3个直方图图（或任何其他类型的图）

通过这种方式，我可以更严格地浏览数据，并深入探讨关系。

作为一个没有足够代表性的新手，我无法发表评论，因此我将此作为一个“答案”，尽管它不应该被视为一个；这些只是与评论相同的一些不完整的建议

和其他人一样，我也喜欢seaborn，尽管我不确定这些情节是否与你所寻求的方式互动。虽然我没有使用过

bokeh

，但我的理解是它在交互性方面提供了更多功能，但不管是什么包，当你超越3和4个变量时，你只能在一个（系列）图表中填充这么多

至于直接在表中输入，前面提到的

df.hist（）

（by）是一个良好的开端。一旦你有了这些箱子，你就可以玩

df.groupby（）

函数了。我已经使用熊猫两年了，但这个功能仍然让我难以忘怀。虽然不是交互式的，但它肯定会帮助您根据自己的喜好对数据进行切分。

为了获得您想要的交互效果，您必须将您关心的所有列放在一起

我能想到的最干净的方法是将

堆叠成一个系列，然后使用pd.cut

考虑到您的示例df




让我们构建一个更好的示例，并使用seaborn

df = pd.DataFrame(dict(A=(np.random.randn(10000) * 100 + 20).astype(int),
                       B=(np.random.randn(10000) * 100 - 20).astype(int)))

import seaborn as sns

df.index = df.index.to_series().astype(str).radd('city')

df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'

sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")



或者一些具有相关性的数据呢
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])

df.index = df.index.to_series().astype(str).radd('city')

df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'

sns.jointplot(x=df_.Abkt, y=df_.Bbkt, kind="scatter", color="k")



交互式bokeh
不会变得太复杂
from bokeh.io import show, output_notebook, output_file

from bokeh.plotting import figure
from bokeh.layouts import row, column
from bokeh.models import ColumnDataSource, Select, CustomJS

output_notebook()

# generate random data
flips = np.random.choice((1, -1), (5, 5))
flips = np.tril(flips, -1) + np.triu(flips, 1) + np.eye(flips.shape[0])

half = np.ones((5, 5)) / 2
cov = (half + np.diag(np.diag(half))) * flips
mean = np.zeros(5)

data = np.random.multivariate_normal(mean, cov, 10000)
df = pd.DataFrame(data, columns=list('ABCDE'))

df.index = df.index.to_series().astype(str).radd('city')

# Stack and cut to get dependent relationships
b = 20
df_ = pd.cut(df.stack(), b, labels=list(range(b))).unstack()

# assign default columns x and y.  These will be the columns I set bokeh to read
df_[['x', 'y']] = df_.loc[:, ['A', 'B']]

source = ColumnDataSource(data=df_)

tools = 'box_select,pan,box_zoom,wheel_zoom,reset,resize,save'

p = figure(plot_width=600, plot_height=300)
p.circle('x', 'y', source=source, fill_color='olive', line_color='black', alpha=.5)

def gcb(like, n):
    code = """
    var data = source.get('data');
    var f = cb_obj.get('value');
    data['{0}{1}'] = data[f];
    source.trigger('change');
    """
    return CustomJS(args=dict(source=source), code=code.format(like, n))

xcb = CustomJS(
    args=dict(source=source),
    code="""
    var data = source.get('data');
    var colm = cb_obj.get('value');
    data['x'] = data[colm];
    source.trigger('change');
    """
)

ycb = CustomJS(
    args=dict(source=source),
    code="""
    var data = source.get('data');
    var colm = cb_obj.get('value');
    data['y'] = data[colm];
    source.trigger('change');
    """
)

options = list('ABCDE')
x_select = Select(options=options, callback=xcb, value='A')
y_select = Select(options=options, callback=ycb, value='B')


show(column(p, row(x_select, y_select)))

这是一个使用和的新解决方案。它应该对交互部分做出更多的响应
我试着记住，对于dataviz来说，简单是美丽的
我使用library来生成随机的城市名称，以使下面的图更加逼真
即使最重要的部分是库的选择，我也会将所有代码放在这里
import pandas as pd
import numpy as np
from faker import Faker

def generate_random_dataset(city_number, 
                        list_identifier,
                        labels,
                        bins,
                        city_location='en_US'):

    fake = Faker(locale=city_location)

    df = pd.DataFrame(data=np.random.uniform(0, 100, len(list_identifier)]), 
                      index=[fake.city() for _ in range(city_number)], 
                      columns=list_identifier)

    for name in list_identifier:
        df[name + 'bkt'] =  pd.Series(pd.cut(df[name], bins, labels=labels))

    return df

list_identifier=list('ABC')
labels = ['Low', 'Medium', 'Average', 'Good', 'Great']
bins = np.array([-1, 20, 40, 60, 80, 101])

df = generate_random_dataset(30, list_identifier, labels, bins)

df.head()

将输出：

有时候，当数据集很小时，用颜色显示一个简单的图表就足够了
from bokeh.charts import Bar, output_file, show
from bokeh.layouts import column

bar = []
for name in list_identifier:
    bar.append(Bar(df, label='index', values=name, stack=name+'bkt',
               title="percentage of " + name, legend='top_left', plot_width=1024))

output_file('cities.html')

show(column(bar))

将创建包含图形的新html页面（城市）。请注意，使用bokeh
生成的所有图形都是交互式的


bokeh
无法首先绘制hexbin。但是，HoloViews
可以。因此，它允许在笔记本上绘制交互式绘图
语法非常简单，您只需要一个包含两列的矩阵并调用hist方法：
import holoviews as hv
hv.notebook_extension('bokeh')

df = generate_random_dataset(1000, list_identifier, list(range(5)), 5)

points = hv.Points(np.column_stack((df.A, df.B)))
points.hist(num_bins=5, dimension=['x', 'y'])


为了与@piRSquared solution进行比较，我偷了一些代码（谢谢你，顺便说一句：）来显示具有某种相关性的数据：
mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])

df.index = df.index.to_series().astype(str).radd('city')

df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'

points = hv.Points(np.column_stack((df_.Abkt, df_.Bbkt)))
points.hist(num_bins=5, dimension=['x', 'y'])


请考虑访问<代码> HOOVIEWS/COD> .< /P>一个快速且容易的方法来了解列的分布是什么样子的，使用<代码> DF.Studio（）（<）>代码>。至于“什么
import pandas as pd
import numpy as np
from faker import Faker

def generate_random_dataset(city_number, 
                        list_identifier,
                        labels,
                        bins,
                        city_location='en_US'):

    fake = Faker(locale=city_location)

    df = pd.DataFrame(data=np.random.uniform(0, 100, len(list_identifier)]), 
                      index=[fake.city() for _ in range(city_number)], 
                      columns=list_identifier)

    for name in list_identifier:
        df[name + 'bkt'] =  pd.Series(pd.cut(df[name], bins, labels=labels))

    return df

list_identifier=list('ABC')
labels = ['Low', 'Medium', 'Average', 'Good', 'Great']
bins = np.array([-1, 20, 40, 60, 80, 101])

df = generate_random_dataset(30, list_identifier, labels, bins)

df.head()

from bokeh.charts import Bar, output_file, show
from bokeh.layouts import column

bar = []
for name in list_identifier:
    bar.append(Bar(df, label='index', values=name, stack=name+'bkt',
               title="percentage of " + name, legend='top_left', plot_width=1024))

output_file('cities.html')

show(column(bar))

import holoviews as hv
hv.notebook_extension('bokeh')

df = generate_random_dataset(1000, list_identifier, list(range(5)), 5)

points = hv.Points(np.column_stack((df.A, df.B)))
points.hist(num_bins=5, dimension=['x', 'y'])

mean, cov = [0, 1], [(1, .5), (.5, 1)]
data = np.random.multivariate_normal(mean, cov, 100000)
df = pd.DataFrame(data, columns=["A", "B"])

df.index = df.index.to_series().astype(str).radd('city')

df_ = pd.cut(df[['A', 'B']].stack(), 30, labels=list(range(30))).unstack()
df_.columns = df_.columns.to_series() + 'bkt'

points = hv.Points(np.column_stack((df_.Abkt, df_.Bbkt)))
points.hist(num_bins=5, dimension=['x', 'y'])