有Python的示例数据集吗?

有Python的示例数据集吗?,python,dataset,Python,Dataset,对于快速测试、调试、创建可移植示例和基准测试,R提供了大量数据集(在基本R数据集包中)。R提示符下的命令library(help=“datasets”)描述了近100个历史数据集,每个数据集都有相关的描述和元数据 Python有类似的功能吗?在Joran的评论之后,我找到了这个模块,它提供了自己的数据集包。显示了如何导入R中可用数据集的示例: import statsmodels.api as sm duncan_prestige = sm.datasets.get_rdataset("Dunc

对于快速测试、调试、创建可移植示例和基准测试,R提供了大量数据集(在基本R
数据集
包中)。R提示符下的命令
library(help=“datasets”)
描述了近100个历史数据集,每个数据集都有相关的描述和元数据


Python有类似的功能吗?

在Joran的评论之后,我找到了这个模块,它提供了自己的
数据集
包。显示了如何导入R中可用数据集的示例:

import statsmodels.api as sm
duncan_prestige = sm.datasets.get_rdataset("Duncan", "car")
print duncan_prestige.__doc__

MyMVPA是另一个提供对数据库轻松访问的模块。你可以查看下面的链接

>>> from mvpa2.tutorial_suite import *
>>> data = [[  1,  1, -1],
...         [  2,  0,  0],
...         [  3,  1,  1],
...         [  4,  0, -1]]
>>> ds = Dataset(data)
>>> ds.shape
(4, 3)
>>> len(ds)
4
链接中的示例

您可以使用包从Python访问所有R数据集

设置界面:

>>> from rpy2.robjects import r, pandas2ri
>>> def data(name): 
...    return pandas2ri.ri2py(r[name])
然后使用可用数据集的任何数据集的名称调用
data()
(就像在
R
中一样)

要查看可用数据集的列表及其说明,请执行以下操作:

>>> print(r.data())
注意:rpy2需要
R
安装并设置
R\u HOME
变量,并且必须同时安装

更新 我刚刚创建了一个简单的模块,它使从Python加载数据集与
R
一样简单(并且它不需要
R
安装,只需要
pandas

要开始使用,请安装模块:

$ pip install pydataset
然后只需加载您想要的任何数据集(目前约有757个可用数据集):


图书馆还提供了一些数据集

此包中有多个数据集。一些玩具数据集包括:


具体来说,使用@tmthydvnprt示例:

from sklearn import datasets
iris = datasets.load_iris()
可以通过执行
iris.data
调用实际数据集


运行Python3.5

我最初在相关问题上发布了这篇文章,但由于它与pandas无关,因此我也将其包括在这里

现在有许多方法可用于访问Python中的示例数据集。就我个人而言,我倾向于坚持我的计划 已经在使用(通常是海产或熊猫)。如果您需要脱机访问, 使用coult安装数据集似乎是唯一的选择

海本 brilliant plotting package
seaborn
具有多个内置样本数据集

import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()
萼片长度萼片宽度花瓣长度花瓣宽度种类
0.5.1 3.5 1.4 0.2刚毛
1 4.9 3.0 1.4 0.2刚毛
2 4.7 3.2 1.3 0.2刚毛
3.4.6 3.1 1.5 0.2刚毛
4.5.0 3.6 1.4 0.2刚毛
熊猫 如果您不想导入seaborn,但仍想访问,可以从其URL读取seaborn示例数据:

iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
请注意,包含分类列的示例数据集具有不同的属性,结果可能不同 通过直接从url获取它。还提供了iris和tips样本数据集 可在github回购协议中获得

R样本数据集 由于可以通过
pd.read\u csv()
读取任何数据集,因此可以访问所有数据集 通过从中复制URL来创建R的示例数据集

加载R样本数据集的其他方法包括

scikit学习
scikit-learn
将样本数据作为numpy数组而不是pandas数据返回 框架

被子 创建数据集管理器是为了方便 数据集管理。它包括许多常见的示例数据集,例如 从。显示了如何安装 并导入iris数据集:

# In your terminal
$ pip install quilt
$ quilt install uciml/iris
安装数据集后,可以在本地访问该数据集,因此,如果要脱机处理数据,这是最好的选择

import quilt.data.uciml.iris as ir

iris = ir.tables.iris()
萼片长度萼片宽度花瓣长度花瓣宽度类别
0.5.1 3.5 1.4 0.2刚毛鸢尾
1 4.9 3.0 1.4 0.2刚毛鸢尾
2 4.7 3.2 1.3 0.2刚毛鸢尾
3.4.6 3.1 1.5 0.2刚毛鸢尾
4.5.0 3.6 1.4 0.2刚毛鸢尾

Cutter还支持数据集版本控制,并包含每个数据集的一个版本。

当然,只需谷歌搜索即可。。。“数据集csv”并将其与csv模块一起导入…相关
value错误:未找到数据集Duncan。
statsmodels 0.9
import seaborn as sns

iris = sns.load_dataset('iris')
iris.head()
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
import statsmodels.api as sm

iris = sm.datasets.get_rdataset('iris').data
from pydataset import data

iris = data('iris')
from sklearn.datasets import load_iris

iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names
# In your terminal
$ pip install quilt
$ quilt install uciml/iris
import quilt.data.uciml.iris as ir

iris = ir.tables.iris()