Python 如何在数据帧中获取文件名?

Python 如何在数据帧中获取文件名?,python,python-3.x,dataframe,databricks,Python,Python 3.x,Dataframe,Databricks,这将把多个文件中的所有数据加载到一个综合数据框中 df=sqlContext.read.format( 'com.databricks.spark.csv' ).选项( header='false', schema=customSchema ).加载(完整路径) fullPath是几个不同字符串的串联。无论如何,我认为我可以将文件名合并到sqlContext函数中,但它不起作用。这给了我一个错误 df=sqlContext.read.format( 'com.databricks.spark.

这将把多个文件中的所有数据加载到一个综合数据框中

df=sqlContext.read.format(
'com.databricks.spark.csv'
).选项(
header='false',
schema=customSchema
).加载(完整路径)
fullPath
是几个不同字符串的串联。无论如何,我认为我可以将文件名合并到
sqlContext
函数中,但它不起作用。这给了我一个错误

df=sqlContext.read.format(
'com.databricks.spark.csv'
).选项(
header='false',
schema=customSchema,
带柱(
“文件名”,
输入文件名()
)
).加载(完整路径)
如何从多个数据集以及文件名加载所有内容

以下是错误消息:

SyntaxError: unexpected EOF while parsing
  File "<command-540264511625083>", line 43
    df = sqlContext.read.format('com.databricks.spark.csv').options(header='false', schema = customSchema, withColumn("filename", input_file_name()).load(fullPath)
                                                                                                                                                                    ^
SyntaxError: unexpected EOF while parsing
SyntaxError:解析时出现意外的EOF
文件“”,第43行
df=sqlContext.read.format('com.databricks.spark.csv')。选项(header='false',schema=customSchema,withColumn('filename',input_file_name())。加载(fullPath)
^
SyntaxError:分析时出现意外的EOF

哦,我知道它现在是如何工作的了。withColumn函数在末尾。这就是我的工作原理

df = sqlContext.read.format('com.databricks.spark.csv').options(header='false', schema = customSchema).load(fullPath).withColumn("filename",input_file_name())
此外,还需要在顶部添加正确的引用

from  pyspark.sql.functions import input_file_name

你介意分享你得到的错误吗?whoopsy daisy我已经在我的编辑中更正了这个问题:)。我以为这只是个打字错误真的很抱歉。。您缺少一个结束括号
。很高兴知道,您找到了答案。您可以将其作为答案接受(单击答案旁边的复选标记,将其从灰色切换为填充)。这可能对其他社区成员有益。非常感谢。