Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
茱莉亚在Hadoop上?_Hadoop_Apache Spark_Julia - Fatal编程技术网

茱莉亚在Hadoop上?

茱莉亚在Hadoop上?,hadoop,apache-spark,julia,Hadoop,Apache Spark,Julia,我是Hadoop工程师,主要对机器学习和数据挖掘感兴趣。利用数据局部性和现代工具,如(尤其是)分析TB级的数据变得简单而愉快。到目前为止,我正在使用PythonAPI来Spark(PySpark),我对它非常满意 然而,最近科学计算领域出现了新的强大参与者-。凭借其JIT编译和内置并行性(以及其他功能),它可能成为传统工具的有力竞争者。所以我很感兴趣,如果我在某个时候切换到Julia,在现有Hadoop堆栈上使用它的选项是什么?是否有任何绑定或桥接允许运行Julia脚本并仍然利用HDFS的数据位

我是Hadoop工程师,主要对机器学习和数据挖掘感兴趣。利用数据局部性和现代工具,如(尤其是)分析TB级的数据变得简单而愉快。到目前为止,我正在使用PythonAPI来Spark(PySpark),我对它非常满意

然而,最近科学计算领域出现了新的强大参与者-。凭借其JIT编译和内置并行性(以及其他功能),它可能成为传统工具的有力竞争者。所以我很感兴趣,如果我在某个时候切换到Julia,在现有Hadoop堆栈上使用它的选项是什么?是否有任何绑定或桥接允许运行Julia脚本并仍然利用HDFS的数据位置

编辑。明确地说:我不是在问什么工具是最好的,不是在比较Julia(或Hadoop)和其他工具,也不是在推广任何计算堆栈。我的问题是关于可能有助于集成两种技术的项目。没有意见,没有长期的审议-只是项目链接和简短的描述

  • 是一个“Hadoop HDFS和Thread客户端”
  • Spark实施的开始:
edit:我还应该指出JavaCall包,它可能允许在这个领域利用现有的Java库


(编辑:最初链接到一个现在被贬低的HDFS绑定项目也由Elly开发者:)/P>对于那些投票关闭:有任何理由考虑这个问题的意见为基础?我不是问什么工具是最好的,我是问有什么工具可用。HDFS包现在被1取代了。我还为ApacheSpark-启动了自己的包装器。还有很多工作要做,但基本操作(包括

map
reduce
text\u file
collect
等)已经就绪。此外,问题和功能请求非常受欢迎。2.这里没有提到的另一个重要项目是.wildart/Mesos.jl链接在github上断开了!