Python pyspark中拼写检查器内存使用量的不合理增长
我正在尝试用pyspark-v2.3编写一个简单的标记器和拼写检查器。输入不是太大——大约64M的数据。当我尝试在启用拼写更正选项的情况下运行时,内存使用量会增加到32GB ram。我知道罪魁祸首是python的autocorrect.spell(w)方法,但我不知道如何解决这个问题。欢迎任何帮助 我使用以下命令启动脚本: spark submit-v--master local[*]--conf“spark.driver.memory=16g”--conf“spark.driver.maxResultSize=16”pyspark\u create\u embeddings.py 注意,我没有得到Java堆异常。这是否意味着这是堆栈增长Python pyspark中拼写检查器内存使用量的不合理增长,python,apache-spark,memory,pyspark,spell-checking,Python,Apache Spark,Memory,Pyspark,Spell Checking,我正在尝试用pyspark-v2.3编写一个简单的标记器和拼写检查器。输入不是太大——大约64M的数据。当我尝试在启用拼写更正选项的情况下运行时,内存使用量会增加到32GB ram。我知道罪魁祸首是python的autocorrect.spell(w)方法,但我不知道如何解决这个问题。欢迎任何帮助 我使用以下命令启动脚本: spark submit-v--master local[*]--conf“spark.driver.memory=16g”--conf“spark.driver.maxRe
import autocorrect.spell
def tokenize(text_rdd, clean_html=False, tokenizer="twitter", remove_reps=True, spell_correct=True):
print("Processing {} tokns".format(text_rdd.count()))
if(remove_reps):
text_rdd = text_rdd.map(lambda text : re.sub(r'(.)\1{2,}', r'\1\1', text))
tokens_rdd = text_rdd.map(lambda text: TweetTokenizer().tokenize(text))
if spell_correct:
tokens_rdd = tokens_rdd.map(lambda tokens: [spell(t) for t in tokens])
#tokens_rdd = tokens_rdd.map(lambda tokens: [t for t in tokens])
return tokens_rdd
是什么让你认为这与Spark有关?根据描述,这听起来更像是您使用的库的问题。Likz@user9613318说,您需要找出问题的根源,它可能来自您正在使用的库。