茱莉亚在Hadoop上？_Hadoop_Apache Spark_Julia

茱莉亚在Hadoop上？

hadoop apache-spark julia

茱莉亚在Hadoop上？,hadoop,apache-spark,julia,Hadoop,Apache Spark,Julia,我是Hadoop工程师，主要对机器学习和数据挖掘感兴趣。利用数据局部性和现代工具，如（尤其是）分析TB级的数据变得简单而愉快。到目前为止，我正在使用PythonAPI来Spark（PySpark），我对它非常满意然而，最近科学计算领域出现了新的强大参与者-。凭借其JIT编译和内置并行性（以及其他功能），它可能成为传统工具的有力竞争者。所以我很感兴趣，如果我在某个时候切换到Julia，在现有Hadoop堆栈上使用它的选项是什么？是否有任何绑定或桥接允许运行Julia脚本并仍然利用HDFS的数据位

我是Hadoop工程师，主要对机器学习和数据挖掘感兴趣。利用数据局部性和现代工具，如（尤其是）分析TB级的数据变得简单而愉快。到目前为止，我正在使用PythonAPI来Spark（PySpark），我对它非常满意

然而，最近科学计算领域出现了新的强大参与者-。凭借其JIT编译和内置并行性（以及其他功能），它可能成为传统工具的有力竞争者。所以我很感兴趣，如果我在某个时候切换到Julia，在现有Hadoop堆栈上使用它的选项是什么？是否有任何绑定或桥接允许运行Julia脚本并仍然利用HDFS的数据位置

编辑。明确地说：我不是在问什么工具是最好的，不是在比较Julia（或Hadoop）和其他工具，也不是在推广任何计算堆栈。我的问题是关于可能有助于集成两种技术的项目。没有意见，没有长期的审议-只是项目链接和简短的描述

是一个“Hadoop HDFS和Thread客户端”
Spark实施的开始：

edit：我还应该指出JavaCall包，它可能允许在这个领域利用现有的Java库

（编辑：最初链接到一个现在被贬低的HDFS绑定项目也由Elly开发者：）/P>对于那些投票关闭：有任何理由考虑这个问题的意见为基础？我不是问什么工具是最好的，我是问有什么工具可用。HDFS包现在被1取代了。我还为ApacheSpark-启动了自己的包装器。还有很多工作要做，但基本操作（包括

map

、

reduce

、

text\u file

、

collect

等）已经就绪。此外，问题和功能请求非常受欢迎。2.这里没有提到的另一个重要项目是.wildart/Mesos.jl链接在github上断开了！