Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/361.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 用于插入的数据帧到配置单元查询_Python_Pandas_Hadoop_Hive_Hiveql - Fatal编程技术网

Python 用于插入的数据帧到配置单元查询

Python 用于插入的数据帧到配置单元查询,python,pandas,hadoop,hive,hiveql,Python,Pandas,Hadoop,Hive,Hiveql,我的问题是,是否有一种方法可以生成一个HiveQL withinsert语句,其中X为列,Y为行,类似于从Pandas的DataFrame对象: query = "INSERT INTO %s SELECT %s, %s, %s, %s, %s, %s, %s from " % ( table_name, column_names[0], column_names[1], column_names[2], column_names[3], column_names[4], column_

我的问题是,是否有一种方法可以生成一个HiveQL with
insert
语句,其中X为列,Y为行,类似于从Pandas的DataFrame对象:

query = "INSERT INTO %s SELECT %s, %s, %s, %s, %s, %s, %s from " % (
    table_name, column_names[0], column_names[1], column_names[2], column_names[3], column_names[4], column_names[5], column_names[6])
我以以下数据帧为例:

  metric predict_date         value        y_date      x_date  ... (many columns) 
0  sales   2017-10-01  7.539010e+06   2016-06-01   2017-09-01
1  sales   2017-11-01  8.364379e+06   2016-07-01   2017-09-01
2  sales   2017-12-01  9.533355e+06   2016-08-01   2017-09-01
.
.
.
(many rows)
这里的用例只是构造查询

注:

  • Pandas’实际上是在编写SQL,我不希望将其用于我的用例
  • 我相信Spark是一种选择,但有没有一种快速简便的方法来生成它,因为设置Spark cluster需要时间。:-)
该查询的格式不正确;不要使用字符串格式来创建查询。它也是无效的。您是否在询问如何使用pandas查询配置单元数据库?“我有点不知道你的预期输出应该是什么。”罗甘约什感谢你的回复。您建议的构建查询的方法是什么?最终结果是我的用例的字符串类型查询。我不是问如何使用pandas查询Hive DB,而是问在哪里使用pandas dataframe将数据插入HiveDB表。抱歉,我不是指查询。我不确定作为pandas的一部分,是否有用于Hive的连接器,我在工作中使用了pyodbc库。但SQL语句不应该使用字符串格式,它应该参数化以防止SQL注入并提高效率。@roganjosh谢谢。该查询实际上并不是用于实际操作,更像是用户的视觉预览。ODBC用于实际执行插入操作,这不是我的用例;不要使用字符串格式来创建查询。它也是无效的。您是否在询问如何使用pandas查询配置单元数据库?“我有点不知道你的预期输出应该是什么。”罗甘约什感谢你的回复。您建议的构建查询的方法是什么?最终结果是我的用例的字符串类型查询。我不是问如何使用pandas查询Hive DB,而是问在哪里使用pandas dataframe将数据插入HiveDB表。抱歉,我不是指查询。我不确定作为pandas的一部分,是否有用于Hive的连接器,我在工作中使用了pyodbc库。但SQL语句不应该使用字符串格式,它应该参数化以防止SQL注入并提高效率。@roganjosh谢谢。该查询实际上并不是用于实际操作,更像是用户的视觉预览。ODBC用于实际执行插入操作,这不是我的用例。