Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作_Dataframe_Apache Spark_Pyspark_Nlp_Palantir Foundry - Fatal编程技术网

Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作

Dataframe Palantir foundry使用导入的数据集使用pyspark执行nlp操作,dataframe,apache-spark,pyspark,nlp,palantir-foundry,Dataframe,Apache Spark,Pyspark,Nlp,Palantir Foundry,所以我在Palantir Foundry代码工作簿中运行了下面这个简单的代码,然后它就运行了。现在我想给它传递一个我导入的数据集,它位于我的图表中。数据集是一个pyspark数据框架,其中一列包含1000行文本。因此,我想用包含许多行的spark数据集替换text=“some random text” import nltk.tokenize as nt import nltk text="Being more Pythonic is good for health." ss

所以我在Palantir Foundry代码工作簿中运行了下面这个简单的代码,然后它就运行了。现在我想给它传递一个我导入的数据集,它位于我的图表中。数据集是一个pyspark数据框架,其中一列包含1000行文本。因此,我想用包含许多行的spark数据集替换
text=“some random text”

import nltk.tokenize as nt
import nltk
text="Being more Pythonic is good for health."
ss=nt.sent_tokenize(text)
tokenized_sent=[nt.word_tokenize(sent) for sent in ss]
pos_sentences=[nltk.pos_tag(sent) for sent in tokenized_sent]
pos_sentences

在python转换中,可以将代码包装在udf中。udf的性能不是很好,但它允许您准确地编写代码。i、 e:

def tokenize(text):
   ss=nt.sent_tokenize(text)
   tokenized_sent=[nt.word_tokenize(sent) for sent in ss]
   return [nltk.pos_tag(sent) for sent in tokenized_sent]

tokenize_udf = F.udf(translate, T.StringType())

df.withColumn("result", tokenize_udf(F.col("text")))


感谢您的回答…但是在pyspark中,df没有定义…我想我需要一行代码将pyspark数据帧转换为pandas数据帧。错误消息是:“存在对名为‘df’的未定义函数或模块的引用,请查看您的代码。”Hey@user601828您可以在代码工作簿的输入栏中将数据帧的类型从Pyspark更改为Pandas。