Python pyspark-从CSV文件使用sqlCtx.load（）创建数据帧_Python_Csv_Pyspark

Python pyspark-从CSV文件使用sqlCtx.load（）创建数据帧

python csv pyspark

Python pyspark-从CSV文件使用sqlCtx.load（）创建数据帧,python,csv,pyspark,Python,Csv,Pyspark,在pyspark中创建数据帧时出错。请让我知道如何修理它。我正在通过Coursera学习pyspark命令以下是我使用的命令： PYSPARK_DRIVER_PYTHON=ipython PYSPARK——包com.databricks:spark-csv_2.10:1.4.0 这似乎很管用有一次在壳中，当我尝试： yelp_df = sqlCtx.load(source = "com.databricks.spark.csv", header = 'true'

在pyspark中创建数据帧时出错。请让我知道如何修理它。我正在通过Coursera学习pyspark命令

以下是我使用的命令：

PYSPARK_DRIVER_PYTHON=ipython PYSPARK——包com.databricks:spark-csv_2.10:1.4.0

这似乎很管用

有一次在壳中，当我尝试：

yelp_df = sqlCtx.load(source = "com.databricks.spark.csv",
               header = 'true',
               inferSchema = 'true',
               path ='file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv')

我得到以下错误：

Py4JJavaError回溯（最近一次调用）

在（）

3标头='true'

4推断模式='true'

---->5路file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv")

/加载中的usr/lib/spark/python/pyspark/sql/context.py（self、path、source、schema、**选项）

480自/服务器/网关/网关/客户端）

481如果架构为无：

-->482 df=自加载（源、作业）

483其他：

484如果不是isinstance（架构、结构类型）：

/调用中的usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py（self，*args）

536 answer=self.gateway\u client.send\u命令（command）

537返回值=获取返回值（应答，self.gateway\u客户端

-->538 self.target_id，self.name）

将其作为文本文件加载，根据分隔符“”进行拆分，然后转换为dataframe。sc是您的spark上下文

sc.textFile('file:///usr/lib/hue/apps/search/examples/collections/solr_configs_yelp_demo/index_data.csv').map(lambda row:row.split(',')).toDF

您的回溯日志似乎不完整，最后的错误是什么？转储太长。我在这里添加了更多内容：整个转储在这里——539 540用于temp_args中的temp_arg:/usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/protocol.py用于get_return_value（应答、网关_客户端、目标_id、名称）298引发Py4JJavaError（299'调用{0}{1}{2}时出错）.\n'.-->300格式（目标id'，名称），值）301其他：302 raise Py4JError（我猜错误列表的主要部分是：Py4JJavaError:调用o19.load时出错。：java.lang.RuntimeException:未能在tCommand.invokeMethod（AbstractCommand.jav）的scala.sys.package$.error（package.scala:27）处为数据源com.databricks.spark.csv加载类