Scala 使用Pyspark从HBase读/写数据
我正在尝试使用Pyspark从HBase读取数据,但它遇到了许多奇怪的错误。下面是我的代码的示例片段 请提出解决方案Scala 使用Pyspark从HBase读/写数据,scala,apache-spark,pyspark,Scala,Apache Spark,Pyspark,我正在尝试使用Pyspark从HBase读取数据,但它遇到了许多奇怪的错误。下面是我的代码的示例片段 请提出解决方案 empdata = ''.join(""" { 'table': { 'namespace': 'default', 'name': 'emp' }, 'rowkey': 'key', 'columns': {
empdata = ''.join("""
{
'table': {
'namespace': 'default',
'name': 'emp'
},
'rowkey': 'key',
'columns': {
'emp_id': {'cf': 'rowkey', 'col': 'key', 'type': 'string'},
'emp_name': {'cf': 'personal data', 'col': 'name', 'type': 'string'}
}
}
""".split())
df = sqlContext \
.read \
.options(catalog=empdata) \
.format('org.apache.spark.sql.execution.datasources.hbase') \
.load()
df.show()
我使用了下面的版本
HBase 2.1.6,
Pyspark 2.3.2、Hadoop 3.1
我已经运行了如下代码
pyspark --master local --packages com.hortonworks:shc-core:1.1.1-1.6-s_2.10 --repositories http://repo.hortonworks.com/content/groups/public/ --files /etc/hbase/conf/hbase-site.xml
错误是
An error occurred while calling o71.load. : java.lang.NoclassDefFoundError: org/apache/apark/Logging
你犯了什么错误?@mck我也更新了错误