Python pyspark-从CSV文件使用sqlCtx.load()创建数据帧
在pyspark中创建数据帧时出错。请让我知道如何修理它。我正在通过Coursera学习pyspark命令 以下是我使用的命令: PYSPARK_DRIVER_PYTHON=ipython PYSPARK——包com.databricks:spark-csv_2.10:1.4.0 这似乎很管用 有一次在壳中,当我尝试:Python pyspark-从CSV文件使用sqlCtx.load()创建数据帧,python,csv,pyspark,Python,Csv,Pyspark,在pyspark中创建数据帧时出错。请让我知道如何修理它。我正在通过Coursera学习pyspark命令 以下是我使用的命令: PYSPARK_DRIVER_PYTHON=ipython PYSPARK——包com.databricks:spark-csv_2.10:1.4.0 这似乎很管用 有一次在壳中,当我尝试: yelp_df = sqlCtx.load(source = "com.databricks.spark.csv", header = 'true'
yelp_df = sqlCtx.load(source = "com.databricks.spark.csv",
header = 'true',
inferSchema = 'true',
path ='file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv')
我得到以下错误:
Py4JJavaError回溯(最近一次调用)
在()
3标头='true'
4推断模式='true'
---->5路file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv")
/加载中的usr/lib/spark/python/pyspark/sql/context.py(self、path、source、schema、**选项)
480自/服务器/网关/网关/客户端)
481如果架构为无:
-->482 df=自加载(源、作业)
483其他:
484如果不是isinstance(架构、结构类型):
/调用中的usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py(self,*args)
536 answer=self.gateway\u client.send\u命令(command)
537返回值=获取返回值(应答,self.gateway\u客户端
-->538 self.target_id,self.name)
将其作为文本文件加载,根据分隔符“”进行拆分,然后转换为dataframe。sc是您的spark上下文
sc.textFile('file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv').map(lambda row:row.split(',')).toDF
您的回溯日志似乎不完整,最后的错误是什么?转储太长。我在这里添加了更多内容:整个转储在这里——539 540用于temp_args中的temp_arg:/usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/protocol.py用于get_return_value(应答、网关_客户端、目标_id、名称)298引发Py4JJavaError(299'调用{0}{1}{2}时出错).\n'.-->300格式(目标id',名称),值)301其他:302 raise Py4JError(我猜错误列表的主要部分是:Py4JJavaError:调用o19.load时出错。:java.lang.RuntimeException:未能在tCommand.invokeMethod(AbstractCommand.jav)的scala.sys.package$.error(package.scala:27)处为数据源com.databricks.spark.csv加载类