R 用于运行统计分析的数据集

R 用于运行统计分析的数据集,r,statistics,dataset,R,Statistics,Dataset,互联网上有哪些数据集我可以对其进行统计分析?可能有一些你可以使用的东西 在他们的原始数据目录中,您可以为数据设置标准,并找到您要查找的内容您考虑过了吗 您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑 最近由Tim Berners Lee设置 显然是基于英国的数据,但这并不重要。涵盖了从废弃汽车到缺课到农业价格指数的所有内容可以在 基本R中包含数据集包。运行此命令可查看完整列表: library(help="datasets") 除此之外,还有许多包可以提取数据,还有许多包包含重要数据。其中,

互联网上有哪些数据集我可以对其进行统计分析?

可能有一些你可以使用的东西

在他们的原始数据目录中,您可以为数据设置标准,并找到您要查找的内容

您考虑过了吗

您已经熟悉数据所代表的内容,即它所跟踪的业务逻辑

最近由Tim Berners Lee设置


显然是基于英国的数据,但这并不重要。涵盖了从废弃汽车到缺课到农业价格指数的所有内容

可以在

基本R中包含
数据集
包。运行此命令可查看完整列表:

library(help="datasets")
除此之外,还有许多包可以提取数据,还有许多包包含重要数据。其中,您可能希望从查看包开始,该包“提供了一组小数据集,这些小数据集在统计和数据可视化的历史中非常有趣和重要”

对于财务数据,提供了一个通用接口,用于从google、yahoo、FRED和其他人获取时间序列数据:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 
弗雷德()确实是自由经济数据的地雷

许多R包附带了特定于其目标的数据。因此,如果你对遗传学、多层次模型等感兴趣,那么相关的软件包通常会有用于该分析的典型示例。此外,书籍包通常附带重现所有示例所需的数据

以下是相关软件包的一些示例:

  • :包括应用的线性回归()
  • :包括Gelman的“使用回归和多级/层次模型进行数据分析”中的一些数据(其余数据和代码已打开)
  • :包括来自“贝叶斯方法:社会和行为科学方法”的数据
  • :包括来自Gelman“贝叶斯数据分析”的数据
  • :包括用于分析分类变量数据集的数据
  • :从加利福尼亚灌溉管理信息系统CIMIS检索数据
  • :包括GIS数据边界和数据
  • :计量经济学数据集
  • :包括“统计学习、数据挖掘、推理和预测要素”中的数据
  • :来自“生态模型和数据”的数据
  • :数据摘自《基于广义线性模型的多元统计建模》一书
  • :Rmetrics的“经济和金融数据集”
  • :功能数据集
  • :来自“预测:方法和应用”的数据集
  • :数据用于“广义相加模型:R简介”
  • :地形和地质测绘数据
  • :包含“简言之R”一书中的所有数据
  • :通过纽约时报API提供对国会投票数据的访问
  • :书中的数据
  • :包括“带R的生态学入门”的数据
  • :包括R/qtl手册的数据
  • :包括“R图形”手册中的数据
  • :访问旧世界生育率调查数据

请参见哈德利·威克姆设立的数据竞赛部分。比赛结束了,现在还在那里。

你可以在网上查看大量的选择。例如,这里有一个巨大的目录(所有的目录都免费提供数据,至少这是我的经验)。该目录中有DatabaseBarball.com,其中包括自1915年以来所有职业棒球运动员的资料

是另一个极好的资源——非常方便。这张单子列出了100多个数据库的4-5行摘要,只要单击每个数据集摘要开头的“表格”链接,所有数据库都可以以平面文件形式提供

R的基本分布预先打包了大量不同的数据集(R2.10中有122个)。要获取它们的列表(以及一行描述),请执行以下操作:

同样,大多数软件包都带有多个数据集(有时更多)。你可以用同样的方式来看待这些问题:

data(package="latticeExtra")
data(package="vcd")
这些数据集是给定软件包的软件包手册和案例中提到的数据集,用于说明软件包的功能

一些包含大量数据集的R软件包(同样也很容易扫描,因此您可以选择自己感兴趣的内容):AER、DAAG和vcd

我发现R的另一个令人印象深刻的地方是它的i/O。假设您想通过yahoo finance API获得一些非常具体的财务数据。假设从2001年到2009年,标准普尔500指数每个月的收盘价和开盘价,只要这样做:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

在这一行代码中,R获取了tick数据,将其成形为一个数据帧,并将其绑定到“tick_data”all。(这里有一个方便的w/用于构建上述URL的雅虎财经API符号)

类似于data.gov,但以欧洲为中心的是欧盟统计局

还有一个中国的统计部门,正如

还有一些提供数据集下载的“社会数据服务”,如
Swift,manyeyes,timetric,ckan,infochimps..

我在你的其他问题上看到,你显然对数据可视化感兴趣。然后看一看project(来自IBM)和示例。

另一个好站点是

联合国统计司 经济部(UNSD) 经济和社会事务部(经社部)发起了一项 新的基于internet的数据服务 全球用户社区。它带来 easy中的联合国统计数据库 通过单个条目访问用户 点()。用户可以 现在搜索并下载各种 联合国统计资源 系统

目前有190个数据集

UCI机器学习库是 数据库、域的集合 理论和数据生成器
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))