Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作_Dataframe_Apache Spark_Pyspark_Nlp_Palantir Foundry

Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作

dataframe apache-spark pyspark nlp

Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作,dataframe,apache-spark,pyspark,nlp,palantir-foundry,Dataframe,Apache Spark,Pyspark,Nlp,Palantir Foundry,所以我在Palantir Foundry代码工作簿中运行了下面这个简单的代码，然后它就运行了。现在我想给它传递一个我导入的数据集，它位于我的图表中。数据集是一个pyspark数据框架，其中一列包含1000行文本。因此，我想用包含许多行的spark数据集替换text=“some random text” import nltk.tokenize as nt import nltk text="Being more Pythonic is good for health." ss

所以我在Palantir Foundry代码工作簿中运行了下面这个简单的代码，然后它就运行了。现在我想给它传递一个我导入的数据集，它位于我的图表中。数据集是一个pyspark数据框架，其中一列包含1000行文本。因此，我想用包含许多行的spark数据集替换

text=“some random text”

import nltk.tokenize as nt
import nltk
text="Being more Pythonic is good for health."
ss=nt.sent_tokenize(text)
tokenized_sent=[nt.word_tokenize(sent) for sent in ss]
pos_sentences=[nltk.pos_tag(sent) for sent in tokenized_sent]
pos_sentences

在python转换中，可以将代码包装在udf中。udf的性能不是很好，但它允许您准确地编写代码。i、 e:

def tokenize(text):
   ss=nt.sent_tokenize(text)
   tokenized_sent=[nt.word_tokenize(sent) for sent in ss]
   return [nltk.pos_tag(sent) for sent in tokenized_sent]

tokenize_udf = F.udf(translate, T.StringType())

df.withColumn("result", tokenize_udf(F.col("text")))

感谢您的回答…但是在pyspark中，df没有定义…我想我需要一行代码将pyspark数据帧转换为pandas数据帧。错误消息是：“存在对名为‘df’的未定义函数或模块的引用，请查看您的代码。”Hey@user601828您可以在代码工作簿的输入栏中将数据帧的类型从Pyspark更改为Pandas。