R 用于运行统计分析的数据集_R_Statistics_Dataset

R 用于运行统计分析的数据集

r statistics

R 用于运行统计分析的数据集,r,statistics,dataset,R,Statistics,Dataset,互联网上有哪些数据集我可以对其进行统计分析？可能有一些你可以使用的东西在他们的原始数据目录中，您可以为数据设置标准，并找到您要查找的内容您考虑过了吗您已经熟悉数据所代表的内容，即它所跟踪的业务逻辑最近由Tim Berners Lee设置显然是基于英国的数据，但这并不重要。涵盖了从废弃汽车到缺课到农业价格指数的所有内容可以在基本R中包含数据集包。运行此命令可查看完整列表： library(help="datasets") 除此之外，还有许多包可以提取数据，还有许多包包含重要数据。其中，

互联网上有哪些数据集我可以对其进行统计分析？

可能有一些你可以使用的东西

在他们的原始数据目录中，您可以为数据设置标准，并找到您要查找的内容

您考虑过了吗

您已经熟悉数据所代表的内容，即它所跟踪的业务逻辑

最近由Tim Berners Lee设置

显然是基于英国的数据，但这并不重要。涵盖了从废弃汽车到缺课到农业价格指数的所有内容

可以在

基本R中包含

数据集

包。运行此命令可查看完整列表：

library(help="datasets")

除此之外，还有许多包可以提取数据，还有许多包包含重要数据。其中，您可能希望从查看包开始，该包“提供了一组小数据集，这些小数据集在统计和数据可视化的历史中非常有趣和重要”

对于财务数据，提供了一个通用接口，用于从google、yahoo、FRED和其他人获取时间序列数据：

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED

弗雷德（）确实是自由经济数据的地雷

许多R包附带了特定于其目标的数据。因此，如果你对遗传学、多层次模型等感兴趣，那么相关的软件包通常会有用于该分析的典型示例。此外，书籍包通常附带重现所有示例所需的数据

以下是相关软件包的一些示例：

：包括应用的线性回归（）
：包括Gelman的“使用回归和多级/层次模型进行数据分析”中的一些数据（其余数据和代码已打开）
：包括来自“贝叶斯方法：社会和行为科学方法”的数据
：包括来自Gelman“贝叶斯数据分析”的数据
：包括用于分析分类变量数据集的数据
：从加利福尼亚灌溉管理信息系统CIMIS检索数据
：包括GIS数据边界和数据
：计量经济学数据集
：包括“统计学习、数据挖掘、推理和预测要素”中的数据
：来自“生态模型和数据”的数据
：数据摘自《基于广义线性模型的多元统计建模》一书
：Rmetrics的“经济和金融数据集”
：功能数据集
：来自“预测：方法和应用”的数据集
：数据用于“广义相加模型：R简介”
：地形和地质测绘数据
：包含“简言之R”一书中的所有数据
：通过纽约时报API提供对国会投票数据的访问
：书中的数据
：包括“带R的生态学入门”的数据
：包括R/qtl手册的数据
：包括“R图形”手册中的数据
：访问旧世界生育率调查数据

请参见哈德利·威克姆设立的数据竞赛部分。比赛结束了，现在还在那里。

你可以在网上查看大量的选择。例如，这里有一个巨大的目录（所有的目录都免费提供数据，至少这是我的经验）。该目录中有DatabaseBarball.com，其中包括自1915年以来所有职业棒球运动员的资料

是另一个极好的资源——非常方便。这张单子列出了100多个数据库的4-5行摘要，只要单击每个数据集摘要开头的“表格”链接，所有数据库都可以以平面文件形式提供

R的基本分布预先打包了大量不同的数据集（R2.10中有122个）。要获取它们的列表（以及一行描述），请执行以下操作：

同样，大多数软件包都带有多个数据集（有时更多）。你可以用同样的方式来看待这些问题：

data(package="latticeExtra")
data(package="vcd")

这些数据集是给定软件包的软件包手册和案例中提到的数据集，用于说明软件包的功能

一些包含大量数据集的R软件包（同样也很容易扫描，因此您可以选择自己感兴趣的内容）：AER、DAAG和vcd

我发现R的另一个令人印象深刻的地方是它的i/O。假设您想通过yahoo finance API获得一些非常具体的财务数据。假设从2001年到2009年，标准普尔500指数每个月的收盘价和开盘价，只要这样做：

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))

在这一行代码中，R获取了tick数据，将其成形为一个数据帧，并将其绑定到“tick_data”all。（这里有一个方便的w/用于构建上述URL的雅虎财经API符号）

类似于data.gov，但以欧洲为中心的是欧盟统计局

还有一个中国的统计部门，正如

还有一些提供数据集下载的“社会数据服务”，如

Swift，manyeyes，timetric，ckan，infochimps..

我在你的其他问题上看到，你显然对数据可视化感兴趣。然后看一看project（来自IBM）和示例。

另一个好站点是

联合国统计司经济部（UNSD）经济和社会事务部（经社部）发起了一项新的基于internet的数据服务全球用户社区。它带来 easy中的联合国统计数据库通过单个条目访问用户点（）。用户可以现在搜索并下载各种联合国统计资源系统

目前有190个数据集

UCI机器学习库是数据库、域的集合理论和数据生成器

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))