Python pyspark-从CSV文件使用sqlCtx.load()创建数据帧

Python pyspark-从CSV文件使用sqlCtx.load()创建数据帧,python,csv,pyspark,Python,Csv,Pyspark,在pyspark中创建数据帧时出错。请让我知道如何修理它。我正在通过Coursera学习pyspark命令 以下是我使用的命令: PYSPARK_DRIVER_PYTHON=ipython PYSPARK——包com.databricks:spark-csv_2.10:1.4.0 这似乎很管用 有一次在壳中,当我尝试: yelp_df = sqlCtx.load(source = "com.databricks.spark.csv", header = 'true'

在pyspark中创建数据帧时出错。请让我知道如何修理它。我正在通过Coursera学习pyspark命令

以下是我使用的命令:

PYSPARK_DRIVER_PYTHON=ipython PYSPARK——包com.databricks:spark-csv_2.10:1.4.0

这似乎很管用

有一次在壳中,当我尝试:

yelp_df = sqlCtx.load(source = "com.databricks.spark.csv",
               header = 'true',
               inferSchema = 'true',
               path ='file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv')
我得到以下错误:

Py4JJavaError回溯(最近一次调用)

在()

3标头='true'

4推断模式='true'

---->5路file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv")

/加载中的usr/lib/spark/python/pyspark/sql/context.py(self、path、source、schema、**选项)

480自/服务器/网关/网关/客户端)

481如果架构为无:

-->482 df=自加载(源、作业)

483其他:

484如果不是isinstance(架构、结构类型):

/调用中的usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py(self,*args)

536 answer=self.gateway\u client.send\u命令(command)

537返回值=获取返回值(应答,self.gateway\u客户端

-->538 self.target_id,self.name)


将其作为文本文件加载,根据分隔符“”进行拆分,然后转换为dataframe。sc是您的spark上下文

sc.textFile('file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv').map(lambda row:row.split(',')).toDF

您的回溯日志似乎不完整,最后的错误是什么?转储太长。我在这里添加了更多内容:整个转储在这里——539 540用于temp_args中的temp_arg:/usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/protocol.py用于get_return_value(应答、网关_客户端、目标_id、名称)298引发Py4JJavaError(299'调用{0}{1}{2}时出错).\n'.-->300格式(目标id',名称),值)301其他:302 raise Py4JError(我猜错误列表的主要部分是:Py4JJavaError:调用o19.load时出错。:java.lang.RuntimeException:未能在tCommand.invokeMethod(AbstractCommand.jav)的scala.sys.package$.error(package.scala:27)处为数据源com.databricks.spark.csv加载类