Python 用于插入的数据帧到配置单元查询_Python_Pandas_Hadoop_Hive_Hiveql

Python 用于插入的数据帧到配置单元查询

python pandas hadoop hive

Python 用于插入的数据帧到配置单元查询,python,pandas,hadoop,hive,hiveql,Python,Pandas,Hadoop,Hive,Hiveql,我的问题是，是否有一种方法可以生成一个HiveQL withinsert语句，其中X为列，Y为行，类似于从Pandas的DataFrame对象： query = "INSERT INTO %s SELECT %s, %s, %s, %s, %s, %s, %s from " % ( table_name, column_names[0], column_names[1], column_names[2], column_names[3], column_names[4], column_

我的问题是，是否有一种方法可以生成一个HiveQL with

insert

语句，其中X为列，Y为行，类似于从Pandas的DataFrame对象：

query = "INSERT INTO %s SELECT %s, %s, %s, %s, %s, %s, %s from " % (
    table_name, column_names[0], column_names[1], column_names[2], column_names[3], column_names[4], column_names[5], column_names[6])

我以以下数据帧为例：

  metric predict_date         value        y_date      x_date  ... (many columns) 
0  sales   2017-10-01  7.539010e+06   2016-06-01   2017-09-01
1  sales   2017-11-01  8.364379e+06   2016-07-01   2017-09-01
2  sales   2017-12-01  9.533355e+06   2016-08-01   2017-09-01
.
.
.
(many rows)

这里的用例只是构造查询

注:

Pandas’实际上是在编写SQL，我不希望将其用于我的用例
我相信Spark是一种选择，但有没有一种快速简便的方法来生成它，因为设置Spark cluster需要时间。：-）

该查询的格式不正确；不要使用字符串格式来创建查询。它也是无效的。您是否在询问如何使用pandas查询配置单元数据库？“我有点不知道你的预期输出应该是什么。”罗甘约什感谢你的回复。您建议的构建查询的方法是什么？最终结果是我的用例的字符串类型查询。我不是问如何使用pandas查询Hive DB，而是问在哪里使用pandas dataframe将数据插入HiveDB表。抱歉，我不是指查询。我不确定作为pandas的一部分，是否有用于Hive的连接器，我在工作中使用了pyodbc库。但SQL语句不应该使用字符串格式，它应该参数化以防止SQL注入并提高效率。@roganjosh谢谢。该查询实际上并不是用于实际操作，更像是用户的视觉预览。ODBC用于实际执行插入操作，这不是我的用例；不要使用字符串格式来创建查询。它也是无效的。您是否在询问如何使用pandas查询配置单元数据库？“我有点不知道你的预期输出应该是什么。”罗甘约什感谢你的回复。您建议的构建查询的方法是什么？最终结果是我的用例的字符串类型查询。我不是问如何使用pandas查询Hive DB，而是问在哪里使用pandas dataframe将数据插入HiveDB表。抱歉，我不是指查询。我不确定作为pandas的一部分，是否有用于Hive的连接器，我在工作中使用了pyodbc库。但SQL语句不应该使用字符串格式，它应该参数化以防止SQL注入并提高效率。@roganjosh谢谢。该查询实际上并不是用于实际操作，更像是用户的视觉预览。ODBC用于实际执行插入操作，这不是我的用例。