Hadoop HDFS进入卡桑德拉

Hadoop HDFS进入卡桑德拉,hadoop,cassandra,apache-pig,Hadoop,Cassandra,Apache Pig,是否可以将处理过的文件(使用PIG)从本地HDF(比如192.168.0.10)迁移/复制/复制/移动到cassandra(192.168.0.20) 我想到的是,我确实创建了一个java应用程序来解析文件并将其重新插入cassandra 还有其他办法吗 非常感谢 编写一个Java程序来将Hadoop数据迁移到Cassandra表实际上是一种过分的做法。如果您碰巧定期执行相同的操作,情况会变得更糟 相反,我们可以利用配置单元的一个非常有用的功能,帮助我们将配置单元表与外部数据源集成。它是hive

是否可以将处理过的文件(使用PIG)从本地HDF(比如192.168.0.10)迁移/复制/复制/移动到cassandra(192.168.0.20)

我想到的是,我确实创建了一个java应用程序来解析文件并将其重新插入cassandra

还有其他办法吗


非常感谢

编写一个Java程序来将Hadoop数据迁移到Cassandra表实际上是一种过分的做法。如果您碰巧定期执行相同的操作,情况会变得更糟

相反,我们可以利用配置单元的一个非常有用的功能,帮助我们将配置单元表与外部数据源集成。它是hive的存储处理程序Api,与Cassandra/Oracle/Mysql等外部数据源集成

已经有了一个可用的
Hive Cassandra存储处理程序API
实现,我们可以很好地重用它,请在下面的url中找到相同的实现

其想法是创建配置单元外部表,该表配置了有关远程Cassandra主机/表详细信息的存储处理程序规范

对这个外部表执行的任何写/读操作都将由配置单元通过mapreduce作业来处理,mapreduce作业和Cassandra进行对话

我希望这是整合Hive和Cassandra的理想方式,我们的努力非常少,效率也非常高


希望这有帮助。

有几种方法可以将数据从Hadoop移动到Cassandra

  • 使用JavaHDFSAPI和CassandraAPI(效率低下)
  • 使用Java MapReduce程序(并行加载)
  • 使用清管器(平行加载)
  • 使用配置单元(并行加载)
  • 使用火花(平行加载)
  • 从所有Pig中,最简单的方法是将数据从HDFS加载到Cassandra。 Pig有一种称为CassandraStorage的存储类型。它允许我们并行地将数据加载到Cassandra中

    有关更多信息,请参阅此链接:

    谢谢分享!这绝对比编写java程序好!我想我应该接受Pig cassandra扩展,因为HDFS中的大部分文件都来自Pig。谢谢naga!我现在仍在尝试使用pig执行此操作,但出现以下错误1070:无法使用导入解析CassandraStorage:[,org.apache.pig.builtin.,org.apache.pig.impl.builtin.].欢迎@kenlz,您必须将此CassandraStorage jar添加到pig类路径中。你能检查一下CassandraStorage在piggybank中是否可用吗?我通过将jar注册到pig来修复它,但现在我遇到了错误2245:无法从loadFunc org.apache.cassandra.hadoop.pig.cqlnativestreage获取模式。它似乎没完没了