Python 如何开始大数据分析_Python_R_Hadoop_Bigdata

Python 如何开始大数据分析

python r hadoop

Python 如何开始大数据分析,python,r,hadoop,bigdata,Python,R,Hadoop,Bigdata,我长期使用R，最近开始使用Python。使用传统的RDBMS系统进行数据仓库存储，使用R/Python进行数字运算，我觉得现在有必要用大数据分析来解决问题我想知道如何开始处理大数据。 -如何简单地使用Map/Reduce和Hadoop 如何利用我在R和Python方面的技能开始大数据分析。例如，使用pythondisco项目使用RHIPE软件包，查找玩具数据集和问题区域找到正确的信息，让我决定是否需要从RDBMS类型的数据库迁移到NoSQL 总而言之，我想知道如何从小事做起，逐步培养我

我长期使用R，最近开始使用Python。使用传统的RDBMS系统进行数据仓库存储，使用R/Python进行数字运算，我觉得现在有必要用大数据分析来解决问题

我想知道如何开始处理大数据。 -如何简单地使用Map/Reduce和Hadoop

如何利用我在R和Python方面的技能开始大数据分析。例如，使用pythondisco项目
使用RHIPE软件包，查找玩具数据集和问题区域
找到正确的信息，让我决定是否需要从RDBMS类型的数据库迁移到NoSQL

总而言之，我想知道如何从小事做起，逐步培养我在大数据分析方面的技能和诀窍

谢谢你的建议和建议。我为这个查询的一般性道歉，但我希望获得更多关于这个主题的观点

严酷的

例如，使用pythondisco项目

好。玩这个

使用RHIPE软件包，查找玩具数据集和问题区域

好的。也要玩这个

不必费力地寻找“大”数据集。即使是小数据集也存在非常有趣的问题。事实上，任何数据集都是一个起点

我曾经构建了一个小型星形架构来分析一个组织6000万美元的预算。原始数据是电子表格，基本上无法理解。所以我把它卸载到一个星型模式中，并用Python编写了几个分析程序来创建相关数字的简化报告

找到正确的信息，让我决定是否需要从RDBMS类型的数据库迁移到NoSQL

这很容易

首先，拿一本关于数据仓库的书（拉尔夫·金博尔的《数据仓库工具包》）为例

其次，仔细研究“星型模式”——特别是Kimball（深入）解释的所有变体和特殊情况

第三，实现以下几点：SQL用于更新和事务

当进行“分析”处理（大或小）时，几乎没有任何类型的更新。SQL（以及相关的规范化）实际上不再重要了

Kimball的观点（以及其他观点）是，大多数数据仓库不是SQL，而是简单的平面文件。数据集市（用于临时、切片和骰子分析）可以位于关系数据库中，以允许使用SQL进行简单、灵活的处理

因此，“决定”是微不足道的。如果它是事务性的（“OLTP”），那么它必须位于关系数据库或OODB中。如果是分析性的（“OLAP”），除了切片和骰子分析，它不需要SQL；即使这样，DB也按需要从官方文件中加载。

可以考虑的一件事是DMETE（）数据分析程序。一个显著的特点是，它有数百个使用Python语言的示例和几本书。我之所以使用它，是因为它在我的Windows10上运行（因为它使用JavaVM），而且它有非常好的2D/3D图形，可以导出为矢量图形格式

相关：谢谢你的详细回答。真的很有帮助。我认为首先你应该了解数据处理的可伸缩模型。所谓可伸缩性，我指的是具有隐式同步的parralel处理。换言之，划分为独立的数据处理单元。如果它确实是可能的，你可以考虑你想要驾驭的计算机能力。如果你想使用，比方说，超过50个cpu核，并且有超过每秒3 GB的数据读取率，你应该选择hadoop这样的大数据工具。我认为亚马逊EMR是一个很好的选择。欢迎来到Stack Overflow！虽然这在理论上可以回答这个问题，但在这里包括答案的基本部分，并提供链接供参考。