有Python的示例数据集吗?
对于快速测试、调试、创建可移植示例和基准测试,R提供了大量数据集(在基本R有Python的示例数据集吗?,python,dataset,Python,Dataset,对于快速测试、调试、创建可移植示例和基准测试,R提供了大量数据集(在基本R数据集包中)。R提示符下的命令library(help=“datasets”)描述了近100个历史数据集,每个数据集都有相关的描述和元数据 Python有类似的功能吗?在Joran的评论之后,我找到了这个模块,它提供了自己的数据集包。显示了如何导入R中可用数据集的示例: import statsmodels.api as sm duncan_prestige = sm.datasets.get_rdataset("Dunc
数据集
包中)。R提示符下的命令library(help=“datasets”)
描述了近100个历史数据集,每个数据集都有相关的描述和元数据
Python有类似的功能吗?在Joran的评论之后,我找到了这个模块,它提供了自己的
数据集
包。显示了如何导入R中可用数据集的示例:
import statsmodels.api as sm
duncan_prestige = sm.datasets.get_rdataset("Duncan", "car")
print duncan_prestige.__doc__
MyMVPA是另一个提供对数据库轻松访问的模块。你可以查看下面的链接
>>> from mvpa2.tutorial_suite import *
>>> data = [[ 1, 1, -1],
... [ 2, 0, 0],
... [ 3, 1, 1],
... [ 4, 0, -1]]
>>> ds = Dataset(data)
>>> ds.shape
(4, 3)
>>> len(ds)
4
链接中的示例
您可以使用包从Python访问所有R数据集
设置界面:
>>> from rpy2.robjects import r, pandas2ri
>>> def data(name):
... return pandas2ri.ri2py(r[name])
然后使用可用数据集的任何数据集的名称调用data()
(就像在R
中一样)
要查看可用数据集的列表及其说明,请执行以下操作:
>>> print(r.data())
注意:rpy2需要R
安装并设置R\u HOME
变量,并且必须同时安装
更新
我刚刚创建了一个简单的模块,它使从Python加载数据集与R
一样简单(并且它不需要R
安装,只需要pandas
)
要开始使用,请安装模块:
$ pip install pydataset
然后只需加载您想要的任何数据集(目前约有757个可用数据集):
图书馆还提供了一些数据集 此包中有多个数据集。一些玩具数据集包括:
具体来说,使用@tmthydvnprt示例:
from sklearn import datasets
iris = datasets.load_iris()
可以通过执行iris.data
调用实际数据集
运行Python3.5我最初在相关问题上发布了这篇文章,但由于它与pandas无关,因此我也将其包括在这里 现在有许多方法可用于访问Python中的示例数据集。就我个人而言,我倾向于坚持我的计划 已经在使用(通常是海产或熊猫)。如果您需要脱机访问, 使用coult安装数据集似乎是唯一的选择 海本 brilliant plotting package
seaborn
具有多个内置样本数据集
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
萼片长度萼片宽度花瓣长度花瓣宽度种类
0.5.1 3.5 1.4 0.2刚毛
1 4.9 3.0 1.4 0.2刚毛
2 4.7 3.2 1.3 0.2刚毛
3.4.6 3.1 1.5 0.2刚毛
4.5.0 3.6 1.4 0.2刚毛
熊猫
如果您不想导入seaborn,但仍想访问,可以从其URL读取seaborn示例数据:
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
请注意,包含分类列的示例数据集具有不同的属性,结果可能不同
通过直接从url获取它。还提供了iris和tips样本数据集
可在github回购协议中获得
R样本数据集
由于可以通过pd.read\u csv()
读取任何数据集,因此可以访问所有数据集
通过从中复制URL来创建R的示例数据集
加载R样本数据集的其他方法包括
及
scikit学习
scikit-learn
将样本数据作为numpy数组而不是pandas数据返回
框架
被子
创建数据集管理器是为了方便
数据集管理。它包括许多常见的示例数据集,例如
从。显示了如何安装
并导入iris数据集:
# In your terminal
$ pip install quilt
$ quilt install uciml/iris
安装数据集后,可以在本地访问该数据集,因此,如果要脱机处理数据,这是最好的选择
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()
萼片长度萼片宽度花瓣长度花瓣宽度类别
0.5.1 3.5 1.4 0.2刚毛鸢尾
1 4.9 3.0 1.4 0.2刚毛鸢尾
2 4.7 3.2 1.3 0.2刚毛鸢尾
3.4.6 3.1 1.5 0.2刚毛鸢尾
4.5.0 3.6 1.4 0.2刚毛鸢尾
Cutter还支持数据集版本控制,并包含每个数据集的一个版本。当然,只需谷歌搜索即可。。。“数据集csv”并将其与csv模块一起导入…相关
value错误:未找到数据集Duncan。
statsmodels 0.9
import seaborn as sns
iris = sns.load_dataset('iris')
iris.head()
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris').data
from pydataset import data
iris = data('iris')
from sklearn.datasets import load_iris
iris = load_iris()
# `iris.data` holds the numerical values
# `iris.feature_names` holds the numerical column names
# `iris.target` holds the categorical (species) values (as ints)
# `iris.target_names` holds the unique categorical names
# In your terminal
$ pip install quilt
$ quilt install uciml/iris
import quilt.data.uciml.iris as ir
iris = ir.tables.iris()