Python pyspark中拼写检查器内存使用量的不合理增长_Python_Apache Spark_Memory_Pyspark_Spell Checking

Python pyspark中拼写检查器内存使用量的不合理增长

python apache-spark memory pyspark

Python pyspark中拼写检查器内存使用量的不合理增长,python,apache-spark,memory,pyspark,spell-checking,Python,Apache Spark,Memory,Pyspark,Spell Checking,我正在尝试用pyspark-v2.3编写一个简单的标记器和拼写检查器。输入不是太大——大约64M的数据。当我尝试在启用拼写更正选项的情况下运行时，内存使用量会增加到32GB ram。我知道罪魁祸首是python的autocorrect.spell（w）方法，但我不知道如何解决这个问题。欢迎任何帮助我使用以下命令启动脚本： spark submit-v--master local[*]--conf“spark.driver.memory=16g”--conf“spark.driver.maxRe

我正在尝试用pyspark-v2.3编写一个简单的标记器和拼写检查器。输入不是太大——大约64M的数据。当我尝试在启用拼写更正选项的情况下运行时，内存使用量会增加到32GB ram。我知道罪魁祸首是python的autocorrect.spell（w）方法，但我不知道如何解决这个问题。欢迎任何帮助

我使用以下命令启动脚本： spark submit-v--master local[*]--conf“spark.driver.memory=16g”--conf“spark.driver.maxResultSize=16”pyspark\u create\u embeddings.py

注意，我没有得到Java堆异常。这是否意味着这是堆栈增长

import autocorrect.spell
def tokenize(text_rdd, clean_html=False, tokenizer="twitter", remove_reps=True, spell_correct=True):

    print("Processing {} tokns".format(text_rdd.count()))

    if(remove_reps):
        text_rdd = text_rdd.map(lambda text : re.sub(r'(.)\1{2,}', r'\1\1', text))

    tokens_rdd = text_rdd.map(lambda text: TweetTokenizer().tokenize(text))
    if spell_correct:
        tokens_rdd = tokens_rdd.map(lambda tokens: [spell(t) for t in tokens])
    #tokens_rdd = tokens_rdd.map(lambda tokens: [t for t in tokens])

    return tokens_rdd

是什么让你认为这与Spark有关？根据描述，这听起来更像是您使用的库的问题。Likz@user9613318说，您需要找出问题的根源，它可能来自您正在使用的库。