Python 如何开始大数据分析

Python 如何开始大数据分析,python,r,hadoop,bigdata,Python,R,Hadoop,Bigdata,我长期使用R,最近开始使用Python。使用传统的RDBMS系统进行数据仓库存储,使用R/Python进行数字运算,我觉得现在有必要用大数据分析来解决问题 我想知道如何开始处理大数据。 -如何简单地使用Map/Reduce和Hadoop 如何利用我在R和Python方面的技能开始大数据分析。例如,使用pythondisco项目 使用RHIPE软件包,查找玩具数据集和问题区域 找到正确的信息,让我决定是否需要从RDBMS类型的数据库迁移到NoSQL 总而言之,我想知道如何从小事做起,逐步培养我

我长期使用R,最近开始使用Python。使用传统的RDBMS系统进行数据仓库存储,使用R/Python进行数字运算,我觉得现在有必要用大数据分析来解决问题

我想知道如何开始处理大数据。 -如何简单地使用Map/Reduce和Hadoop

  • 如何利用我在R和Python方面的技能开始大数据分析。例如,使用pythondisco项目
  • 使用RHIPE软件包,查找玩具数据集和问题区域
  • 找到正确的信息,让我决定是否需要从RDBMS类型的数据库迁移到NoSQL
总而言之,我想知道如何从小事做起,逐步培养我在大数据分析方面的技能和诀窍

谢谢你的建议和建议。 我为这个查询的一般性道歉,但我希望获得更多关于这个主题的观点

  • 严酷的
例如,使用pythondisco项目

好。玩这个

使用RHIPE软件包,查找玩具数据集和问题区域

好的。也要玩这个

不必费力地寻找“大”数据集。即使是小数据集也存在非常有趣的问题。事实上,任何数据集都是一个起点

我曾经构建了一个小型星形架构来分析一个组织6000万美元的预算。原始数据是电子表格,基本上无法理解。所以我把它卸载到一个星型模式中,并用Python编写了几个分析程序来创建相关数字的简化报告

找到正确的信息,让我决定是否需要从RDBMS类型的数据库迁移到NoSQL

这很容易

首先,拿一本关于数据仓库的书(拉尔夫·金博尔的《数据仓库工具包》)为例

其次,仔细研究“星型模式”——特别是Kimball(深入)解释的所有变体和特殊情况

第三,实现以下几点:SQL用于更新和事务

当进行“分析”处理(大或小)时,几乎没有任何类型的更新。SQL(以及相关的规范化)实际上不再重要了

Kimball的观点(以及其他观点)是,大多数数据仓库不是SQL,而是简单的平面文件。数据集市(用于临时、切片和骰子分析)可以位于关系数据库中,以允许使用SQL进行简单、灵活的处理


因此,“决定”是微不足道的。如果它是事务性的(“OLTP”),那么它必须位于关系数据库或OODB中。如果是分析性的(“OLAP”),除了切片和骰子分析,它不需要SQL;即使这样,DB也按需要从官方文件中加载。

可以考虑的一件事是DMETE()数据分析程序。一个显著的特点是,它有数百个使用Python语言的示例和几本书。我之所以使用它,是因为它在我的Windows10上运行(因为它使用JavaVM),而且它有非常好的2D/3D图形,可以导出为矢量图形格式

相关:谢谢你的详细回答。真的很有帮助。我认为首先你应该了解数据处理的可伸缩模型。所谓可伸缩性,我指的是具有隐式同步的parralel处理。换言之,划分为独立的数据处理单元。如果它确实是可能的,你可以考虑你想要驾驭的计算机能力。如果你想使用,比方说,超过50个cpu核,并且有超过每秒3 GB的数据读取率,你应该选择hadoop这样的大数据工具。我认为亚马逊EMR是一个很好的选择。欢迎来到Stack Overflow!虽然这在理论上可以回答这个问题,但在这里包括答案的基本部分,并提供链接供参考。