有Python的示例数据集吗？_Python_Dataset

有Python的示例数据集吗？

python

有Python的示例数据集吗？,python,dataset,Python,Dataset,对于快速测试、调试、创建可移植示例和基准测试，R提供了大量数据集（在基本R数据集包中）。R提示符下的命令library（help=“datasets”）描述了近100个历史数据集，每个数据集都有相关的描述和元数据 Python有类似的功能吗？在Joran的评论之后，我找到了这个模块，它提供了自己的数据集包。显示了如何导入R中可用数据集的示例： import statsmodels.api as sm duncan_prestige = sm.datasets.get_rdataset("Dunc

对于快速测试、调试、创建可移植示例和基准测试，R提供了大量数据集（在基本R

数据集

包中）。R提示符下的命令

library（help=“datasets”）

描述了近100个历史数据集，每个数据集都有相关的描述和元数据

Python有类似的功能吗？

在Joran的评论之后，我找到了这个模块，它提供了自己的

数据集

包。显示了如何导入R中可用数据集的示例：

import statsmodels.api as sm
duncan_prestige = sm.datasets.get_rdataset("Duncan", "car")
print duncan_prestige.__doc__

MyMVPA是另一个提供对数据库轻松访问的模块。你可以查看下面的链接

>>> from mvpa2.tutorial_suite import *
>>> data = [[  1,  1, -1],
...         [  2,  0,  0],
...         [  3,  1,  1],
...         [  4,  0, -1]]
>>> ds = Dataset(data)
>>> ds.shape
(4, 3)
>>> len(ds)
4

链接中的示例

您可以使用包从Python访问所有R数据集

设置界面：

>>> from rpy2.robjects import r, pandas2ri
>>> def data(name): 
...    return pandas2ri.ri2py(r[name])

然后使用可用数据集的任何数据集的名称调用

data（）

（就像在

中一样）

要查看可用数据集的列表及其说明，请执行以下操作：

>>> print(r.data())

注意：rpy2需要

安装并设置

R\u HOME

变量，并且必须同时安装

更新我刚刚创建了一个简单的模块，它使从Python加载数据集与

一样简单（并且它不需要

安装，只需要

pandas

）

要开始使用，请安装模块：

$ pip install pydataset

然后只需加载您想要的任何数据集（目前约有757个可用数据集）：

图书馆还提供了一些数据集

此包中有多个数据集。一些玩具数据集包括：

具体来说，使用@tmthydvnprt示例：

from sklearn import datasets
iris = datasets.load_iris()

可以通过执行

iris.data

调用实际数据集

运行Python3.5

我最初在相关问题上发布了这篇文章，但由于它与pandas无关，因此我也将其包括在这里

现在有许多方法可用于访问Python中的示例数据集。就我个人而言，我倾向于坚持我的计划已经在使用（通常是海产或熊猫）。如果您需要脱机访问，使用coult安装数据集似乎是唯一的选择

海本 brilliant plotting package

seaborn

具有多个内置样本数据集

import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()

萼片长度萼片宽度花瓣长度花瓣宽度种类
0.5.1 3.5 1.4 0.2刚毛
1 4.9 3.0 1.4 0.2刚毛
2 4.7 3.2 1.3 0.2刚毛
3.4.6 3.1 1.5 0.2刚毛
4.5.0 3.6 1.4 0.2刚毛

熊猫如果您不想导入seaborn，但仍想访问，可以从其URL读取seaborn示例数据：

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

请注意，包含分类列的示例数据集具有不同的属性，结果可能不同通过直接从url获取它。还提供了iris和tips样本数据集可在github回购协议中获得

R样本数据集由于可以通过

pd.read\u csv（）

读取任何数据集，因此可以访问所有数据集通过从中复制URL来创建R的示例数据集

加载R样本数据集的其他方法包括

及

scikit学习

scikit-learn

将样本数据作为numpy数组而不是pandas数据返回框架

被子创建数据集管理器是为了方便数据集管理。它包括许多常见的示例数据集，例如从。显示了如何安装并导入iris数据集：

# In your terminal
$ pip install quilt
$ quilt install uciml/iris

安装数据集后，可以在本地访问该数据集，因此，如果要脱机处理数据，这是最好的选择

import quilt.data.uciml.iris as ir

iris = ir.tables.iris()

萼片长度萼片宽度花瓣长度花瓣宽度类别
0.5.1 3.5 1.4 0.2刚毛鸢尾
1 4.9 3.0 1.4 0.2刚毛鸢尾
2 4.7 3.2 1.3 0.2刚毛鸢尾
3.4.6 3.1 1.5 0.2刚毛鸢尾
4.5.0 3.6 1.4 0.2刚毛鸢尾

Cutter还支持数据集版本控制，并包含每个数据集的一个版本。

当然，只需谷歌搜索即可。。。“数据集csv”并将其与csv模块一起导入…相关

value错误：未找到数据集Duncan。

statsmodels 0.9

import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')

import statsmodels.api as sm

iris = sm.datasets.get_rdataset('iris').data

from pydataset import data

iris = data('iris')

from sklearn.datasets import load_iris

iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names

# In your terminal
$ pip install quilt
$ quilt install uciml/iris

import quilt.data.uciml.iris as ir

iris = ir.tables.iris()