Python 用于插入的数据帧到配置单元查询
我的问题是,是否有一种方法可以生成一个HiveQL withPython 用于插入的数据帧到配置单元查询,python,pandas,hadoop,hive,hiveql,Python,Pandas,Hadoop,Hive,Hiveql,我的问题是,是否有一种方法可以生成一个HiveQL withinsert语句,其中X为列,Y为行,类似于从Pandas的DataFrame对象: query = "INSERT INTO %s SELECT %s, %s, %s, %s, %s, %s, %s from " % ( table_name, column_names[0], column_names[1], column_names[2], column_names[3], column_names[4], column_
insert
语句,其中X为列,Y为行,类似于从Pandas的DataFrame对象:
query = "INSERT INTO %s SELECT %s, %s, %s, %s, %s, %s, %s from " % (
table_name, column_names[0], column_names[1], column_names[2], column_names[3], column_names[4], column_names[5], column_names[6])
我以以下数据帧为例:
metric predict_date value y_date x_date ... (many columns)
0 sales 2017-10-01 7.539010e+06 2016-06-01 2017-09-01
1 sales 2017-11-01 8.364379e+06 2016-07-01 2017-09-01
2 sales 2017-12-01 9.533355e+06 2016-08-01 2017-09-01
.
.
.
(many rows)
这里的用例只是构造查询
注:
- Pandas’实际上是在编写SQL,我不希望将其用于我的用例李>
- 我相信Spark是一种选择,但有没有一种快速简便的方法来生成它,因为设置Spark cluster需要时间。:-)李>