Python——如何将split()函数应用于数据帧中的整列

Python——如何将split()函数应用于数据帧中的整列,python,pandas,Python,Pandas,我正在做一个python任务,需要分析一个yelp数据集。以下是数据集的列: Index(['review_id', 'user_id', 'business_id', 'stars', 'useful', 'funny', 'cool', 'text', 'date'], dtype='object') 以下是数据集中的一个条目示例: Index(['review_id', 'user_id', 'business_id', 'stars', 'useful', 'funny',

我正在做一个python任务,需要分析一个yelp数据集。以下是数据集的列:

Index(['review_id', 'user_id', 'business_id', 'stars', 'useful', 'funny',
   'cool', 'text', 'date'],
  dtype='object')
以下是数据集中的一个条目示例:

Index(['review_id', 'user_id', 'business_id', 'stars', 'useful', 'funny',
   'cool', 'text', 'date'],
  dtype='object')

我希望根据他们的星级评分(1-5)对所有条目进行分组,显示收到该评分的餐厅的百分比,最后显示每个星级评分中评论的平均字数。“text”列中的每个值都包含一个字符串形式的餐馆评论——这些是我需要计算的单词

平均字数是我的瓶颈。我已经成功地编写了一个代码来查找平均字符数,而不是平均字数。请参阅以下代码:

reviews\u df[“review\u length”]=reviews\u df[“text”]。应用(len)

该代码生成以下输出:


这几乎是完美的,但平均值显示了平均字符数。我被告知,将split()函数应用于字符串,然后在该新字符串中运行len(),将允许我计算字符串中的字数。但是,对于此代码(
reviews\u df[“review\u length”]=reviews\u df[“text”].apply(len)
),我已经通过.apply(len)应用了len函数从一个数据帧转换为一整列—基本上是列表列表。这不起作用……有人能提供解决方案吗?
应用调用中插入lambda函数:

lambda x : len(x.split())

我通常会在原处显示它,并提供输出,但您无法使用必要的演示数据完成发布。

我们也可以通过以下方法完成此操作

reviews_df["review_length"] = reviews_df["text"].str.split(" ").str.len()

希望这对您有所帮助

谢谢!为了将来的参考,我可以知道您所说的“必要的演示数据”是什么意思吗?我是否应该将数据集发布到此处以供参考?请参阅。我们应该能够将您发布的代码粘贴到文本文件中,并复制您指定的问题。不接受场外链接,您没有指定问题,并且您的代码不会产生任何输出。我们需要输入数据、独立代码以及实际和设计红色输出。我将其压缩为一个短语,希望您已经阅读了介绍教程和发布指南。如果没有,请重新阅读这些指南(我自己至少已经阅读了四次)。