Hadoop HDFS进入卡桑德拉_Hadoop_Cassandra_Apache Pig

Hadoop HDFS进入卡桑德拉

hadoop cassandra apache-pig

Hadoop HDFS进入卡桑德拉,hadoop,cassandra,apache-pig,Hadoop,Cassandra,Apache Pig,是否可以将处理过的文件（使用PIG）从本地HDF（比如192.168.0.10）迁移/复制/复制/移动到cassandra（192.168.0.20）我想到的是，我确实创建了一个java应用程序来解析文件并将其重新插入cassandra 还有其他办法吗非常感谢编写一个Java程序来将Hadoop数据迁移到Cassandra表实际上是一种过分的做法。如果您碰巧定期执行相同的操作，情况会变得更糟相反，我们可以利用配置单元的一个非常有用的功能，帮助我们将配置单元表与外部数据源集成。它是hive

是否可以将处理过的文件（使用PIG）从本地HDF（比如192.168.0.10）迁移/复制/复制/移动到cassandra（192.168.0.20）

我想到的是，我确实创建了一个java应用程序来解析文件并将其重新插入cassandra

还有其他办法吗

非常感谢

编写一个Java程序来将Hadoop数据迁移到Cassandra表实际上是一种过分的做法。如果您碰巧定期执行相同的操作，情况会变得更糟

相反，我们可以利用配置单元的一个非常有用的功能，帮助我们将配置单元表与外部数据源集成。它是hive的存储处理程序Api，与Cassandra/Oracle/Mysql等外部数据源集成

已经有了一个可用的

Hive Cassandra存储处理程序API

实现，我们可以很好地重用它，请在下面的url中找到相同的实现

其想法是创建配置单元外部表，该表配置了有关远程Cassandra主机/表详细信息的存储处理程序规范

对这个外部表执行的任何写/读操作都将由配置单元通过mapreduce作业来处理，mapreduce作业和Cassandra进行对话

我希望这是整合Hive和Cassandra的理想方式，我们的努力非常少，效率也非常高

希望这有帮助。

有几种方法可以将数据从Hadoop移动到Cassandra

使用JavaHDFSAPI和CassandraAPI（效率低下）

使用Java MapReduce程序（并行加载）

使用清管器（平行加载）

使用配置单元（并行加载）

使用火花（平行加载）

从所有Pig中，最简单的方法是将数据从HDFS加载到Cassandra。 Pig有一种称为CassandraStorage的存储类型。它允许我们并行地将数据加载到Cassandra中

有关更多信息，请参阅此链接：

谢谢分享！这绝对比编写java程序好！我想我应该接受Pig cassandra扩展，因为HDFS中的大部分文件都来自Pig。谢谢naga！我现在仍在尝试使用pig执行此操作，但出现以下错误1070:无法使用导入解析CassandraStorage:[，org.apache.pig.builtin.，org.apache.pig.impl.builtin.].欢迎@kenlz，您必须将此CassandraStorage jar添加到pig类路径中。你能检查一下CassandraStorage在piggybank中是否可用吗？我通过将jar注册到pig来修复它，但现在我遇到了错误2245：无法从loadFunc org.apache.cassandra.hadoop.pig.cqlnativestreage获取模式。它似乎没完没了