Hbase单元版本的使用

有一个问题困扰了我很长时间,我对Hbase单元版本感到困惑,我知道如何设置版本和获取版本等API操作,但我不知道为什么会有版本概念,以及如何使用版本。 有没有什么好的例子可以帮助我理解cell版本的用途? 提前感谢版本可用于存储一列的多个固定数量的值。假设您要存储用户最近10次登录的时间戳。您可以有一个名为“loginTime”的列,并在定义表时将max versions设置为10。现在,您只需在用户每次登录时更新“loginTime”列的值,HBase将不会覆盖该列的上一个值,而是将上一个值向

如何使hbase尊重现有区域数据的hregion.max.filesize

我正在使用HBase的默认配置。每个区域服务器都有很多区域 我发现我可以配置区域的最大大小——不是256MB,而是4GB。因此,我添加了以下配置并重新启动了群集: <property> <name>hbase.hregion.max.filesize</name> <value>4294967296</value> </property> hbase.hregion.max.filesize 429496

从hbase中删除列

我想知道如何处理hbase。从Hbase列族中删除某些列时出现问题。 我创建了一个具有列族的表: Configuration conf = HBaseConfiguration.create(); HBaseAdmin hbase = new HBaseAdmin(conf); HTableDescriptor desc = new HTableDescriptor("new_table"); HColumnDescriptor cf = new HColumnDescriptor("zz".g

在将reduce()输出加载到HBase shell之前,是否需要在HBase shell中定义目标表?

我已安装HBase,但尚未创建任何表来加载数据。现在,如果我们想将reduce()的输出加载到HBase表中,我们需要在HBase shell中明确地创建表并提及列名,还是可以在MapReduce程序中这样做 您需要提前准备好桌子。从shell中创建它,或者添加代码在作业本身中创建表。这是如何通过代码实现的: HBaseConfiguration conf = HBaseConfiguration.get();  HBaseAdmin hbase = new HBaseAdmin(conf);

Hbase 火花序列化错误

我正在努力学习spark+scala。我想从HBase读取,但不需要mapreduce。 我创建了一个简单的HBase表“test”,并在其中进行了3次输入。我想通过spark阅读它(没有使用mapreduce的HBaseTest)。我尝试在shell上运行以下命令 val numbers = Array( new Get(Bytes.toBytes("row1")), new Get(Bytes.toBytes("row2")), new Get(Bytes.toBytes("

在Hbase中重命名行键

我有一个表customer正在生产中,现在我想将rowkey从'timestamp'重命名为'SSN timestamp'。我该怎么做呢?是否有用于更改现有行键的alter命令,或者是否有其他方法?hdfs中保存的Hbase数据。由于无法更新hdfs块,因此无法更新hbase中的单元格。更新是一次删除和一次新插入。您可以编写一个map reduce来扫描、删除和插入所有行。在那之后,进行一次主要的压缩以清除标记行以进行删除。我在一篇文章中读到,alter命令可用于此目的。这造成了混乱。那么你的意

Hbase和Storm中的动物园管理员冲突

嗨,我要解释我的问题。请通读一遍,然后评论/回答 我在我的机器Buntu 12上安装了Hbase0.98-hadoop2。当时我没有安装zookeeper。 但是昨天我在我的机器上安装了storm。但为了这个目的,我也必须安装zookeeper。所以我也安装了zookeeper 现在,如果我运行Hbase,它可以正常工作。然后,当我运行风暴,它也工作良好 但当我同时运行Hbase和storm时,它会给我带来问题 用例1: 用例2: 用例3: 用例4: 现在我知道动物园管理员有点问题。Hbase有

将HBase连接到Grafana

如何在Grafana中将HBase配置为数据源?可以通过http api吗?如何将Apache HBase或Spark与Grafana集成为一个可靠的数据源?如果您将Ambari设置为和hadoop服务的监控系统,并尽可能将其连接起来,以监控您想要的内容。我建议使用Apache Phoenix,它可以提供对HBase表的类似SQL的访问。然后Grafana的数据源可以或多或少地从Mysql/postgres数据源克隆 无论如何,我在这里请求直接支持: 用OpenTSDB代替怎么样?您可以使用HB

使用Phoenix删除HBase中包含表的架构

如何使用Phoenix删除HBase中包含表的架构 HBase版本:1.2.6 凤凰版本:4.10.0-Hbase-1.2.0 我正试图删除一个模式,但无法执行。我的模式由一些表组成 我得到一个错误,架构不是空的。在这种情况下,如何删除模式?我还需要做什么 这是使用Phoenix从HBase删除模式的Java代码: Connection conn = setupDbConnection(); statement = conn.createStatement(); statement.

在apache hadoop2中以HA模式配置HBase所需的步骤?

我正在使用hadoop 2.6.0和hbase 0.98.7,我已经为hdfs/namenode配置了HA。我有活动nn1和待机nn2正在显示。现在的问题是我无法为hbase启用高可用性,而且我不知道如何将hbase与支持HA的HDF集成。此外,在执行jps时,HMaster正在运行,但无法查看hbase的UI My core site.xml <configuration> <property> <name>fs.defaultFS</name>

什么';s数据驻留在HDFS(HFile)上时的HBase读取性能

我们知道,当内存存储中的数据达到阈值时,内存存储中的数据将作为HFile刷新到HDFS 当我想通过行键获取一段数据,但数据在HDFS上时,HBase如何保证检索速度(或随机访问速度)?看起来它比从内存存储中检索要慢得多?从HBase: HBase提供了两种不同的块缓存实现来缓存数据 从HDFS读取:堆上的默认值LruBlockCache和BucketCache, 它(通常)是堆外的…LruBlockCache是原始的 实现,并且完全在Java堆中。巴克特缓存是 可选,主要用于保持块缓存数据远离堆

HBase记录在关闭时丢失

您好,出于开发和测试目的,我使用本地文件系统安装了Hbase 0.89(oct版本)。我使用hbase shell创建了一些表和行。无论何时重新启动hbase,都没有可用的数据/表。对此有何建议?使用默认的本地文件系统将文件存储在/tmp中。重新启动时,您的操作系统可能会对此进行清理。如果必须使用本地文件系统,请将位置设置为/tmp以外的其他位置。查看${hbase_HOME}/conf中的hbase-default.xml配置文件,查看要设置的正确属性

在远程HBase上使用Camel扫描表

我首先知道这个问题是假的,但我找不到一个关于文档的答案。让Apache camel扫描远程HBase上的表的方法是什么 阿帕奇骆驼的帮助不大。它仅在本地安装了hbase时才起作用 提前谢谢 编辑: 我尝试了@cexbrayat的例子,但得到了以下异常 8071 [Camel (camel-1) thread #1 - stream://in] ERROR org.apache.camel.processor.DefaultErrorHandler - Failed delivery for (M

Hbase 使用HDFS+;地图缩小

我有一门学术课程“中间件”,涵盖分布式软件系统的不同方面,包括[tag:Distributed File system]等主题的介绍。这还包括对、、、的介绍,,,,。 我想知道,我可以有一个小项目,试图整合上述技术。对于初学者来说,我知道提供了一种体验和使用Eclipse的方法。 我正在考虑实现一个应用程序,它接受事件流作为输入,分析并给出输出 我的机器上有procoessor和4Gb Ram 请让我知道如何开始一切,欢迎对简单示例应用程序提出任何建议。是一篇关于使用Hive/HDFS分析推文的

Hbase Zookeeper可以在dotcloud上运行吗

我试着运行nutch,它需要gora,它需要hbase,它需要zookeeper。 回顾hbase教程,下面是我的hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>file:///home/dotcloud/data/hbase</value> </property> <prop

如何为HBase进行容量规划?

我计划将HBase用于社交应用程序。开始的用户基数将在5k左右,并且每月将继续以每月3k左右的速度增长 哪种方法可以提高我的应用程序的效率: 动态地在移动中添加资源(我认为如果我试图跨月加载数据,读取将受到影响) 在启动应用程序时添加静态资源(应用程序可以使用适当的区域服务器和区域分割来处理所有25TB的数据,以便统一写入和读取数据,这样会更快) 注:我的应用程序在一年内处理的平均数据将达到~25TB。根据,应用程序将需要44个区域服务器(无需更改默认配置) 有什么建议吗

我的Hbase上有一些时间序列数据。我可以使用OpenTSDB获取这些数据并报告吗?

我的Hbase上有一些时间序列数据。我可以使用OpenTSDB获取这些数据并报告吗?如果有的话,有视频教程或文档,我可以从中开始学习。你不能。OpenTSDB最终以某种格式将数据写入HBASE。它维护自己的HBase表。看看 只要您的现有数据与前面提到的不一样,那么您就不能在其上使用OpenTSDB。没有关于hbase和OpenTSDB的教程(单独)吗?您所说的“报告”是什么意思?OpenTSDB文档说,您不应该直接写入HBase,而应该使用它们的API。因此,解决方案是将其从Hbase导出并导

sqoop merge此命令可用于hbase导入吗?

我使用sqoop将数据从sql server导入hbase。我还可以使用sqoop merge命令更新hbase中的数据吗 感谢您,sqoop merge不支持hbase,但运行新导入(甚至从其他sql表)将覆盖hbase中的数据。您可以提供自定义where+自定义列,以仅更新所需的数据,而不影响已存储在hbase中的其余数据: sqoop import --connect [CONN_STRING] --username [USERNAME] --password [PASSWORD] \ -

Hbase 存储中的列顺序

使用存储时,列的顺序是否重要 cellref_IP = LOAD '$TBL_CELL' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('cf_data:cq_update_date cf_data:cq_network ', '-loadKey true'); 与 cellref_IP = LOAD '$TBL_CELL' USING org.apache.pig.backend.hadoop.hbase.HBa

HBase中的简单查询

我是HBase的新手。我知道HBase并不等同于RDBMS。但是,我喜欢在HBase中运行简单查询,这在RDBMS中非常简单。我尝试使用带过滤器的扫描,但我不知道如何使用值获取列 考虑这个简单的MySQL查询:“从电子邮件=myname@domain.com” 在HBase中也一样,我有表名:members。我有两栏:用户名和电子邮件 现在,我想提取电子邮件等于 myname@domain.com. 我发现有很多示例可以在指定列族和限定符时提取值。但我的情况不同,当我在RDBMS中思考时,它非常

HBase表为空,但区域数增加

我在下面创建了一个表,我已经在这个表中写入了一些数据 **Namespace Table Name Online Regions Description** default user_recommend_stories 17 'user_recommend_stories', {NAME => 'a', TTL => '259200 SECONDS (3 DAYS)'}, {NAME => 'c', TTL => '259200 SE

Hbase 使用Kafka、Storm&;糖化血红蛋白

为我的无知道歉 我们正在建立一个实时数据库,根据会员在网站上的活动捕获记录。发出这些信息的应用程序是IBM MQ。我们计划设置ApacheKafka来使用来自IBM MQ的这些消息,并将其存储在HBase中进行分析。Kafka是否可以将这些信息直接写入HBase,或者我们应该在Kafka和HBase之间设置一个实时流引擎,如ApacheStorm?这就是卡夫卡-->风暴-->HBase 感谢您的宝贵反馈 我认为您不需要使用Kafka和Storm将数据写入HBase。据我所知,您可以将数据直接从I

用于时间范围查询的Hbase行键设计

我需要获得从开始日期到结束日期的产品页面视图。所以我像这样设计Hbase rowkey ProductId(md5)_productId_dateKey(yyyymmdd) d:pageview. 示例:productId是1180560。8月1日至8月30日的rowkey将为: 0f0e02e9e24c29ad2c2b28e37e4f250b_1180560_20150801 ..... 0f0e02e9e24c29ad2c2b28e37e4f250b_1180560_20150830

无法加载HBase的spark sql数据源

我想使用Spark SQL从HBase表中获取数据。但我在创建数据帧时得到classNotFoundException。这是我的例外 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/types/NativeType at org.apache.hadoop.hbase.spark.DefaultSource$$anonfun$generateSchemaMappingMap$1

如何确保通过OpenTSDB插入HBase的数据?

我尝试使用OpenTSDB将大量数据存储到HBase中。一旦我在TSDB UI中绘制了数据点,它就可以显示我插入的数据点 我知道插入的数据只能在opentsdb UI中绘图。。是否有任何选项可以确保在没有TSDDB UI的情况下以hbase写入数据点?最简单的方法是向OpenTSDB发出查询请求。例如: http://tsdbHost:tsdbPort/api/query?start=1h-ago&m=sum:proc.stat.cpu{type=idle} tsdbHost-Ope

在HBase中存储嵌套HashMap

请原谅我的无知,但我对HBase相对较新,似乎无法理解。我想在HBase中存储以下嵌套哈希映射: Map<String, Map<String, Map<String, Double>>> Map 我似乎无法理解HBase表的模式 行索引显然是最外层映射中的字符串值。但是,我认为HBase不允许嵌套列族(尽管它允许每个列族包含任意数量的列) 从回答中,我还发现嵌套实体在HBase中不能有嵌套实体 要了解数据大小,请执行以下操作: 最里面的贴图(Map)将

如何转换hbase二进制数据并将其加载到Pig中?

我在Hbase中有一个表,它有2000多行,由二进制格式的数据组成。尝试将其加载到pig中,并使用pig对其进行一些数据处理 样本hbase表数据:- ROW COLUMN+CELL \x00\x00\x00\x00\x00\x00\x06\xA6 column=cd:cct, timestamp=1475738991531, value=Atlanta \x00\x00\x00\x00\x00\x00\x06\xA6 column=

如何从Talend BigData Studio访问基于区域的HBase表记录

我正在尝试从Talend BigData Studio访问基于区域的Hbase表记录。我们是否可以选择根据区域过滤tHBaseInput组件中的记录。 以及如何过滤tHBaseInput中的记录以根据日期列过滤增量记录?据我所知,您不能将hbase扫描限制在特定区域 具体来说,Hbase擅长随机读写,前提是rowkey很强,并且正确地实现了SALT,从而正确地分发数据 行上筛选键速度更快,但列上筛选需要完全扫描,这会降低Hbase性能 此外,由于列族中有更多的列,您将看到性能影响。超过3列的

Hbase筛选器列表必须\u通过\u一个始终计算所有?

从hbase中我们可以看到: FilterList.Operator.MUST_PASS_ONE非惰性计算:所有筛选器 总是要进行评估 现在,任何人都可以告诉你T | F | F…=T,即我们可以在遇到第一个True值时停止。我想知道是否有人知道为什么filterlist不复制这种行为

无法更改HBase中的列

这是一个新手HBase问题。我在HBase(1.2.6)中有一个表: 它创建于: hbase(main):046:0> desc 'ship' Table ship is ENABLED ship COLUMN FAMILIES DESCRIPTION {NAME => 'cf1', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALS

行键散列时如何使用hbase shell scan命令

在对行键进行哈希运算时,如何使用hbase shell scan命令 我有一个虚拟实例使用以下命令在沙箱(其中行键没有散列)上工作 scan 'tableName' , {ROWPREFIXFILTER => 'myrowStartValue'} 这是有效的。但是,对于实际实例,行键是散列的。如何解决此问题?您是否希望返回一系列密钥?一旦它们被散列,它们将不再按照您期望的方式排序,因此扫描可能不会达到您期望的效果。恐怕您必须提前手动散列任何要检索的密钥-HBase shell无法

Hbase外壳:值被剪切

我有一个名为“mytable”的hbase表,其中只有一个列族“default”和一个限定符“details” 现在我做这个查询: get 'mytable', 'test' 结果的值被削减。它应该是一个很长的数字: COLUMN CELL default:details times

创建在hbase列上分区的外部表的语法是什么?

我在HBase中有一个表,我想在hive 到目前为止,我一直在使用: CREATE EXTERNAL TABLE events(key STRING, day INT, source STRING, ip STRING) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping"=":key,c:date#b,c:source,c:ipAddr

映射到HBase的配置单元表上的联接

我们在HBase中创建了表,这些表使用HBase存储处理程序映射到配置单元。如果这些表有巨大的记录,比如说1亿条记录,如果我们需要基于某个列连接这两个表,并且如果这些列不是行键id列,那么性能会如何,我们有没有办法提高映射到HBase的配置单元表的表连接的性能 问候,, GHK.您使用哪种底层存储来实现配置单元连接性能并不重要。所以HBase rowkey不能帮助您解决Hive问题 您可以使用的一个技巧是mapjoin,如果您将小表与大表连接起来,它会非常有效 您可以在这个链接上阅读更多关于配置

Hbase 当一个新领域被添加到kdc中时,有没有方法用新的tgt刷新JVM?

我们已通过Kerberos为HBase群集上的所有进程启用了安全性。当我们向kdc添加一个新领域时,我们希望所有进程都能看到新的配置,而不必重新启动或等待tgt定期更新。在Windows中,我们使用KerbTray(来自Windows Server 2003 Resource Kit-2003的一个工具,但它仍然可以工作,至少KerbTray)。我们右键单击系统托盘中的图标,然后从菜单中选择“清除票据”选项 也可以在命令行中使用Microsoft klist purge(如下所述)执行此操作。您

如何在HBase中筛选列上的键值数组?

我的Hbase表有一列,其中包含键值对数组 我读过关于行键,列族或列,自定义过滤器的内容 我需要扫描列,其中持有特定的键名,如 ROW1 , CF1, DATA_COLUMN : {KEY1:VALUE, KEY2:VALUE, KEY3:VALUE } ROW2 , CF1, DATA_COLUMN : {KEY1:VALUE} ROW3 , CF1, DATA_COLUMN : {KEY1:VALUE, KEY5:VALUE} ROW4 , CF1, DATA_COLUMN : {KEY8:

什么是';其他地区';在hbase web UI上是什么意思?

我已在群集中合并了表的某些区域,未发生异常。在此之后,我在该表的web UI上发现有一个名为“other regions”的列,其值已更改 有人能帮我澄清一下吗?我阅读了源代码,发现另一个区域是那些状态不在{OPEN | OFFLINE | SPLIT | FAILED | OPEN | FAILED | CLOSE}的区域 代码位于文件“MasterStatusTmplImpl.java”中: Map<RegionState.State, List<HRegionInfo&g

Cloudera 4-Hdfs/Hbase-通过专用网络中的第二个NIC进行内部通信

我们已经使用Cloudera Manager在测试集群上设置了CDH4(hdfs、hbase、hue、mapreduce、oozie和zookeeper)。一切正常,只是我们似乎无法弄清楚如何让节点在私有网络中通过eth1通信,同时仍然从外部通过eth0访问管理器。 关于在哪里配置它有什么建议吗 谢谢您的回复。经理:我想您指的是HBase主机。您应该知道,连接到HBase的客户端连接到regionserver(它们连接到ZooKeeper quorom,这反过来又将它们指向regionserve

HBase:高效地列出与给定前缀匹配的给定行的列

我正在尝试使用HBase Java客户端尽可能高效地回答以下问题: 对于给定的行和列族,哪些限定符具有特定的前缀 我可能会使用带有BinaryPrefixComparator的限定符过滤器。这样行吗?我的直觉是,不发送这些列的相应单元格内容就可以做到这一点,对吗?像KeyOnlyFilter这样的东西能在这里工作吗?这是我要做的工作。KeyOnlyFilter和ColumnPrefixFilter工作得非常出色,据我所知,它相当于限定符过滤器和BinaryPrefixComparator 其中g

Hbase命令行无法编辑或删除

我很困惑为什么在Hbase命令行上不能删除输入命令, 如果我犯了错误,我必须在另一个提示符下重写命令。 我觉得这很愚蠢,为什么?!是我的配置错误还是其他原因。 还是真的很愚蠢? 我使用的是Contos6.1,Hbase 0.94 提前谢谢 HBase命令行具有历史记录功能,它还可以在提交前删除键入的命令将光标移动到要删除的内容,然后按Del键

Hbase:仅使用一个筛选器扫描,而不是使用筛选器和列扫描

当我使用SingleColumnValueFilter执行hbase扫描时,如果没有添加其他参数,它将返回40000行 例如: table.scan(filter=“SingleColumnValueFilter('info','collection',=,'substring:tweets\u brazilFire')) 例如: table.scan(filter=“SingleColumnValueFilter('info','collection',=,'substring:tweets\

将tsv导入hbase时出错

我使用以下方法创建了一个表: 现在,我想将我的数据从一个文件导入到它。我在tsv中的表格有两列:ProvinceID(作为主键),ProvinceName 我正在使用以下代码进行导入: bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv '-Dimporttsv.separator=,' -Dimporttsv.columns= HBASE_ROW_KEY, ProvinceINFO:ProvinceName Province /usr/d

HBase 0.94.17克隆快照时出错

我正在尝试从hbase 0.94.17中的快照“cust_snap”克隆表。我正在犯错误。有什么问题吗 克隆快照“客户快照”,“客户克隆” NoMethodError:Object:0x63bbad6f>的未定义方法“clone\u snapsot”命令中有输入错误“克隆快照”而不是“克隆快照”

Hbase读取优化

我在我的hbase cluseter中使用5个RegionServe。我只是将url的md5散列存储为rowkey,并且只存储一个包含数据字段的列族,其中包含与该键对应的数据(每行包含大小约为30KB的数据)。我的请求是读密集型的(很少写入和非常大的读取)。我已经为我的集群做了大约300000个项目的基准测试,使用5个预拆分(在5个区域服务器上统一存储数据),我获得了大约200个的QP。在基准测试中,我运行了150个线程来查询从单独的客户端读取的数据 这个qps对我来说太少了。可以做些什么优化来

Hbase多数据中心复制-Zookeeper

我们正在规划用于复制(灾难恢复)的多数据中心HBase群集。群集1或主群集将复制到另一个DC中的从群集。在这样的设置中,两个集群是否都可以使用不同的zookeeper,或者都应该指向可从两个数据中心访问的公共zookeeper实例?最好的策略是什么。既然您提到了主集群和从集群,我假设数据复制将仅从主集群复制到从集群。即使可以使用单个zookeeper仲裁来处理复制,我建议为每个集群使用单独的zookeeper仲裁。因为假设数据中心的一个位置由于某些自然灾害而完全关闭,所以另一个集群不会受到影响

hbase的最佳行键设计

我来自sql背景,缺少hbase中的一些基本概念。我将mysql数据分为5列,其中需要两列进行数据过滤。在sql中,查询非常简单,我可以在这两列上放置索引,并可以根据在where子句中为这两列定义的某个范围获取数据 这两列中的数据以单调递增的方式显示,就像时间戳一样。在hbase中设计它的最佳方式是什么。我正在考虑将时间戳作为rowkey,并为热点设置一定的措施。但是对于每个查询,我需要在rowkey中放入范围过滤器,然后扫描结果并基于第二列进行过滤。我不确定这是否足够快。那么,hbase在索引

hbase shell以xml文件作为输入运行jruby脚本

我编写了一个JRuby脚本,将XML文件作为输入 我的JRuby脚本名为myruby.rb,我的XML文档名为myxml.XML 如果我想使用hbase shell运行我的JRuby脚本,我应该运行什么命令 我编写了cat myxml.xml | hbase shell myruby.rb 这似乎不对。你能给我一些建议吗?什么不对劲?命令是否给出错误?它没有显示任何进展吗?我刚才也做了类似的事情,让它完全按照那种格式工作,cat myxml.xml | hbase shell myruby.rb

Hbase Geomesa在查询性能中的应用

我使用Geomesa作为空间温度数据库。对于其中一个用例。我需要做基于Geomesa Id的查询(一批100个Id)。我发现查询中的延迟很高是否仍有改进查询性能的方法? 以下是查询的AuditLogger: 30 Nov 2019 09:04:05,481 [36m[DEBUG][m c7e42e76-074f-47e7-84d0-22b682912f6e (Coral Endpoint : 182) org.locationtech.geomesa.utils.audit.AuditLogge

上一页   1   2   3    4   5   6  ... 下一页 最后一页 共 32 页