Pyspark sql pyspark sql无法识别sql查询命令_Pyspark Sql

Pyspark sql pyspark sql无法识别sql查询命令

Pyspark sql pyspark sql无法识别sql查询命令,pyspark-sql,Pyspark Sql,社区我已经编写了以下pyspark.sql查询。但是，pyspark似乎无法识别SQL查询“前20%” #%% import findspark findspark.init('/home/packt/spark-2.1.0-bin-hadoop2.7') from pyspark.sql import SparkSession spark = SparkSession.builder.appName('ops').getOrCreate() df = spark.read.csv('/hom

社区

我已经编写了以下pyspark.sql查询。但是，pyspark似乎无法识别SQL查询“前20%”

#%%
import findspark
findspark.init('/home/packt/spark-2.1.0-bin-hadoop2.7')
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('ops').getOrCreate()
df = spark.read.csv('/home/packt/Downloads/Spark_DataFrames/HumanResources_Employee.csv',inferSchema=True,header=True)
df.createOrReplaceTempView('HumanResources_Employee')
myresults = spark.sql("""SELECT TOP 20 PERCENT
  NationalIDNumber
 ,JobTitle
 ,BirthDate
FROM HumanResources_Employee""")
myresults.show()

从结果中可以看出，pyspark无法识别数字“20”

Py4JJavaError: An error occurred while calling o19.sql.
: org.apache.spark.sql.catalyst.parser.ParseException: 
extraneous input '20' expecting {<EOF>, '(', ',', '.', '[', 'SELECT', 'FROM', 'ADD', 'AS', 'ALL', 'DISTINCT', 'WHERE', 'GROUP', 'BY', 'GROUPING', 'SETS', 'CUBE', 'ROLLUP', 'ORDER', 'HAVING', 'LIMIT', 'AT', 'OR', 'AND', 'IN', NOT, 'NO', 'EXISTS', 'BETWEEN', 'LIKE', RLIKE, 'IS', 'NULL', 'TRUE', 'FALSE', 'NULLS', 'ASC', 'DESC', 'FOR', 'INTERVAL', 'CASE', 'WHEN', 'THEN', 'ELSE', 'END', 'JOIN', 'CROSS', 'OUTER', 'INNER', 'LEFT', 'SEMI', 'RIGHT', 'FULL', 'NATURAL', 'ON', 'LATERAL', 'WINDOW', 'OVER', 'PARTITION', 'RANGE', 'ROWS', 'UNBOUNDED', 'PRECEDING', 'FOLLOWING', 'CURRENT', 'FIRST', 'LAST', 'ROW', 'WITH', 'VALUES', 'CREATE', 'TABLE', 'VIEW', 'REPLACE', 'INSERT', 'DELETE', 'INTO', 'DESCRIBE', 'EXPLAIN', 'FORMAT', 'LOGICAL', 'CODEGEN', 'CAST', 'SHOW', 'TABLES', 'COLUMNS', 'COLUMN', 'USE', 'PARTITIONS', 'FUNCTIONS', 'DROP', 'UNION', 'EXCEPT', 'MINUS', 'INTERSECT', 'TO', 'TABLESAMPLE', 'STRATIFY', 'ALTER', 'RENAME', 'ARRAY', 'MAP', 'STRUCT', 'COMMENT', 'SET', 'RESET', 'DATA', 'START', 'TRANSACTION', 'COMMIT', 'ROLLBACK', 'MACRO', 'IF', EQ, '<=>', '<>', '!=', '<', LTE, '>', GTE, '+', '-', '*', '/', '%', 'DIV', '&', '|', '^', 'PERCENT', 'BUCKET', 'OUT', 'OF', 'SORT', 'CLUSTER', 'DISTRIBUTE', 'OVERWRITE', 'TRANSFORM', 'REDUCE', 'USING', 'SERDE', 'SERDEPROPERTIES', 'RECORDREADER', 'RECORDWRITER', 'DELIMITED', 'FIELDS', 'TERMINATED', 'COLLECTION', 'ITEMS', 'KEYS', 'ESCAPED', 'LINES', 'SEPARATED', 'FUNCTION', 'EXTENDED', 'REFRESH', 'CLEAR', 'CACHE', 'UNCACHE', 'LAZY', 'FORMATTED', 'GLOBAL', TEMPORARY, 'OPTIONS', 'UNSET', 'TBLPROPERTIES', 'DBPROPERTIES', 'BUCKETS', 'SKEWED', 'STORED', 'DIRECTORIES', 'LOCATION', 'EXCHANGE', 'ARCHIVE', 'UNARCHIVE', 'FILEFORMAT', 'TOUCH', 'COMPACT', 'CONCATENATE', 'CHANGE', 'CASCADE', 'RESTRICT', 'CLUSTERED', 'SORTED', 'PURGE', 'INPUTFORMAT', 'OUTPUTFORMAT', DATABASE, DATABASES, 'DFS', 'TRUNCATE', 'ANALYZE', 'COMPUTE', 'LIST', 'STATISTICS', 'PARTITIONED', 'EXTERNAL', 'DEFINED', 'REVOKE', 'GRANT', 'LOCK', 'UNLOCK', 'MSCK', 'REPAIR', 'RECOVER', 'EXPORT', 'IMPORT', 'LOAD', 'ROLE', 'ROLES', 'COMPACTIONS', 'PRINCIPALS', 'TRANSACTIONS', 'INDEX', 'INDEXES', 'LOCKS', 'OPTION', 'ANTI', 'LOCAL', 'INPATH', 'CURRENT_DATE', 'CURRENT_TIMESTAMP', IDENTIFIER, BACKQUOTED_IDENTIFIER}(line 1, pos 11)

== SQL ==
SELECT TOP 20 PERCENT
-----------^^^
  NationalIDNumber
 ,JobTitle
 ,BirthDate
FROM HumanResources_Employee

如果我必须重新格式化数字'20'，你能告诉我吗

Py4JJavaError: An error occurred while calling o19.sql.
: org.apache.spark.sql.catalyst.parser.ParseException: 
extraneous input '20' expecting {<EOF>, '(', ',', '.', '[', 'SELECT', 'FROM', 'ADD', 'AS', 'ALL', 'DISTINCT', 'WHERE', 'GROUP', 'BY', 'GROUPING', 'SETS', 'CUBE', 'ROLLUP', 'ORDER', 'HAVING', 'LIMIT', 'AT', 'OR', 'AND', 'IN', NOT, 'NO', 'EXISTS', 'BETWEEN', 'LIKE', RLIKE, 'IS', 'NULL', 'TRUE', 'FALSE', 'NULLS', 'ASC', 'DESC', 'FOR', 'INTERVAL', 'CASE', 'WHEN', 'THEN', 'ELSE', 'END', 'JOIN', 'CROSS', 'OUTER', 'INNER', 'LEFT', 'SEMI', 'RIGHT', 'FULL', 'NATURAL', 'ON', 'LATERAL', 'WINDOW', 'OVER', 'PARTITION', 'RANGE', 'ROWS', 'UNBOUNDED', 'PRECEDING', 'FOLLOWING', 'CURRENT', 'FIRST', 'LAST', 'ROW', 'WITH', 'VALUES', 'CREATE', 'TABLE', 'VIEW', 'REPLACE', 'INSERT', 'DELETE', 'INTO', 'DESCRIBE', 'EXPLAIN', 'FORMAT', 'LOGICAL', 'CODEGEN', 'CAST', 'SHOW', 'TABLES', 'COLUMNS', 'COLUMN', 'USE', 'PARTITIONS', 'FUNCTIONS', 'DROP', 'UNION', 'EXCEPT', 'MINUS', 'INTERSECT', 'TO', 'TABLESAMPLE', 'STRATIFY', 'ALTER', 'RENAME', 'ARRAY', 'MAP', 'STRUCT', 'COMMENT', 'SET', 'RESET', 'DATA', 'START', 'TRANSACTION', 'COMMIT', 'ROLLBACK', 'MACRO', 'IF', EQ, '<=>', '<>', '!=', '<', LTE, '>', GTE, '+', '-', '*', '/', '%', 'DIV', '&', '|', '^', 'PERCENT', 'BUCKET', 'OUT', 'OF', 'SORT', 'CLUSTER', 'DISTRIBUTE', 'OVERWRITE', 'TRANSFORM', 'REDUCE', 'USING', 'SERDE', 'SERDEPROPERTIES', 'RECORDREADER', 'RECORDWRITER', 'DELIMITED', 'FIELDS', 'TERMINATED', 'COLLECTION', 'ITEMS', 'KEYS', 'ESCAPED', 'LINES', 'SEPARATED', 'FUNCTION', 'EXTENDED', 'REFRESH', 'CLEAR', 'CACHE', 'UNCACHE', 'LAZY', 'FORMATTED', 'GLOBAL', TEMPORARY, 'OPTIONS', 'UNSET', 'TBLPROPERTIES', 'DBPROPERTIES', 'BUCKETS', 'SKEWED', 'STORED', 'DIRECTORIES', 'LOCATION', 'EXCHANGE', 'ARCHIVE', 'UNARCHIVE', 'FILEFORMAT', 'TOUCH', 'COMPACT', 'CONCATENATE', 'CHANGE', 'CASCADE', 'RESTRICT', 'CLUSTERED', 'SORTED', 'PURGE', 'INPUTFORMAT', 'OUTPUTFORMAT', DATABASE, DATABASES, 'DFS', 'TRUNCATE', 'ANALYZE', 'COMPUTE', 'LIST', 'STATISTICS', 'PARTITIONED', 'EXTERNAL', 'DEFINED', 'REVOKE', 'GRANT', 'LOCK', 'UNLOCK', 'MSCK', 'REPAIR', 'RECOVER', 'EXPORT', 'IMPORT', 'LOAD', 'ROLE', 'ROLES', 'COMPACTIONS', 'PRINCIPALS', 'TRANSACTIONS', 'INDEX', 'INDEXES', 'LOCKS', 'OPTION', 'ANTI', 'LOCAL', 'INPATH', 'CURRENT_DATE', 'CURRENT_TIMESTAMP', IDENTIFIER, BACKQUOTED_IDENTIFIER}(line 1, pos 11)

== SQL ==
SELECT TOP 20 PERCENT
-----------^^^
  NationalIDNumber
 ,JobTitle
 ,BirthDate
FROM HumanResources_Employee

Py4JJavaError:调用o19.sql时出错。
：org.apache.spark.sql.catalyst.parser.ParseException:
外部输入'20'应为{，'（'，'，'，'，'。，'['、'SELECT'、'FROM'、'ADD'、'AS'、'ALL'、'DISTINCT'、'WHERE'、'GROUP'、'GROUPING'、'set'、'CUBE'、'ROLLUP'、'ORDER'、'HAVING'、'LIMIT'、'AT'、'NO'、'EXISTS'、'BETWEEN'、'LIKE'、'RLIKE'、'IS'、'NULL'、'TRUE'、'FALSE'、'NULLS'、'ASC'、'DESC'、'FOR'、TER、INDER、LEFT、SEMI、RIGHT、FULL、NATURAL、ON、ANTENAL、WINDOW、OVER、PARTITION、RANGE、ROWS、UNBONDED、PREVICE、FOWER、FIRST、LAST、ROW、WITH、VALUES、CREATE、TABLE、VIEW、REPLACE、INSERT、DELETE、INTO、EXTABLE、EXPLAIN、EXPLAIN、CODEGEN、CAST、W、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、HE、惰性、格式化、全局、临时、选项、取消设置、TBLProperty、DBPROPERTIES、Bucket、SKEWED、STORED、DIRECTORIES、LOCATION、EXCHANGE、ARCHIVE、UNARCHIVE、FILEFORMAT、TOUCH、COMPACT、CONCATENATE、CHANGE、CASCADE、RESTRICT、CLUSTERED、SORTED、PURGE、INPUTFORMAT、OUTPUTFORMAT、DATABASE、，数据库，“DFS”、“TRUNCATE”、“ANALYZE”、“COMPUTE”、“LIST”、“STATISTICS”、“PARTITIONED”、“EXTERNAL”、“DEFINED”、“REVOKE”、“GRANT”、“LOCK”、“UNLOCK”、“MSCK”、“REPAIR”、“RECOVER”、“EXPORT”、“IMPORT”、“LOAD”、“ROLE”、“ROLES”、“COMPACTIONS”、“Principles”、“TRANSACTIONS”、“INDEX”、“INDEXES”、“LOCKS”、“OPTION”、“ANTI”、“LOCAL”、“INPATH”、“CURRENT_DATE”，“当前\u时间戳”，标识符，后引\u标识符}（第1行，位置11）
==SQL==
选择前20%
-----------^^^
国家编号
，职位名称
，出生日期
来自人力资源部

从上面可以看出，问题似乎出在数字20上

任何想法都将不胜感激

关于

请格式化错误消息，以便我们有希望阅读它。问题已重新格式化。我希望此帮助帖子我已更改代码，以便于他人提供帮助。现在看起来是这样的：df=spark.read.csvdf.registerTempTable（“HumanResources_Employee”）df=spark.read.csv（'/home/packt/Downloads/Spark_DataFrames/HumanResources_Employee.csv'，inferSchema=True，header=True）df.createOrReplaceTempView（'HumanResources_Employee'）myresults=Spark.sql（“'SELECT TOP 20*FROM HumanResources_Employee”“”）myresults.show（），但我仍然收到一条类似的错误消息：==SQL==SELECT TOP 20*FROM HumanResources\u Employee------------------^^^^问题似乎出在数字“20”上。好的，我按照这里的建议，将代码更改为myresults=spark.SQL（“SELECT*FROM HumanResources\u Employee LIMIT 20”）。它工作得很好。但是如果有人能告诉我如何调整代码，使结果显示20%，而不是20行？