Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作
所以我在Palantir Foundry代码工作簿中运行了下面这个简单的代码,然后它就运行了。现在我想给它传递一个我导入的数据集,它位于我的图表中。数据集是一个pyspark数据框架,其中一列包含1000行文本。因此,我想用包含许多行的spark数据集替换Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作,dataframe,apache-spark,pyspark,nlp,palantir-foundry,Dataframe,Apache Spark,Pyspark,Nlp,Palantir Foundry,所以我在Palantir Foundry代码工作簿中运行了下面这个简单的代码,然后它就运行了。现在我想给它传递一个我导入的数据集,它位于我的图表中。数据集是一个pyspark数据框架,其中一列包含1000行文本。因此,我想用包含许多行的spark数据集替换text=“some random text” import nltk.tokenize as nt import nltk text="Being more Pythonic is good for health." ss
text=“some random text”
import nltk.tokenize as nt
import nltk
text="Being more Pythonic is good for health."
ss=nt.sent_tokenize(text)
tokenized_sent=[nt.word_tokenize(sent) for sent in ss]
pos_sentences=[nltk.pos_tag(sent) for sent in tokenized_sent]
pos_sentences
在python转换中,可以将代码包装在udf中。udf的性能不是很好,但它允许您准确地编写代码。i、 e:
def tokenize(text):
ss=nt.sent_tokenize(text)
tokenized_sent=[nt.word_tokenize(sent) for sent in ss]
return [nltk.pos_tag(sent) for sent in tokenized_sent]
tokenize_udf = F.udf(translate, T.StringType())
df.withColumn("result", tokenize_udf(F.col("text")))
感谢您的回答…但是在pyspark中,df没有定义…我想我需要一行代码将pyspark数据帧转换为pandas数据帧。错误消息是:“存在对名为‘df’的未定义函数或模块的引用,请查看您的代码。”Hey@user601828您可以在代码工作簿的输入栏中将数据帧的类型从Pyspark更改为Pandas。