Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ajax/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Can';t导入Azure Databricks提供的spark集群中安装的python模块_Apache Spark_Azure Databricks - Fatal编程技术网

Apache spark Can';t导入Azure Databricks提供的spark集群中安装的python模块

Apache spark Can';t导入Azure Databricks提供的spark集群中安装的python模块,apache-spark,azure-databricks,Apache Spark,Azure Databricks,我刚刚开始通过Azure Databricks中提供的spark cluster运行python笔记本。根据需要,我们通过shell命令以及databricks工作区中的“createlibrary”UI安装了两个外部包,如spacy和kafka 但是,每次运行“导入”时,集群都会抛出“找不到模块”错误 除此之外,我们似乎无法确切知道这些模块安装在何处。尽管在“sys.path”中添加了模块路径,问题仍然存在 请让我们知道如何尽快解决此问题您可以按照以下步骤在Azure Databricks

我刚刚开始通过Azure Databricks中提供的spark cluster运行python笔记本。根据需要,我们通过shell命令以及databricks工作区中的“createlibrary”UI安装了两个外部包,如spacy和kafka

但是,每次运行“导入”时,集群都会抛出“找不到模块”错误

除此之外,我们似乎无法确切知道这些模块安装在何处。尽管在“sys.path”中添加了模块路径,问题仍然存在


请让我们知道如何尽快解决此问题

您可以按照以下步骤在Azure Databricks上安装并加载spaCy软件包

步骤1:使用pip安装spaCy并下载spaCy模型

%sh
/databricks/python3/bin/pip install spacy 
/databricks/python3/bin/python3 -m spacy download en_core_web_sm
笔记本电脑输出:

步骤2:使用spaCy运行示例

import spacy

# Load English tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load("en_core_web_sm")

# Process whole documents
text = ("When Sebastian Thrun started working on self-driving cars at "
        "Google in 2007, few people outside of the company took him "
        "seriously. “I can tell you very senior CEOs of major American "
        "car companies would shake my hand and turn away because I wasn’t "
        "worth talking to,” said Thrun, in an interview with Recode earlier "
        "this week.")
doc = nlp(text)

# Analyze syntax
print("Noun phrases:", [chunk.text for chunk in doc.noun_chunks])
print("Verbs:", [token.lemma_ for token in doc if token.pos_ == "VERB"])

# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)
笔记本电脑输出:

希望这有帮助。如果您还有任何疑问,请务必告诉我们


请点击“标记为答案”并在帮助您的帖子上进行投票,这对其他社区成员可能会有所帮助。

将spacy“en_core_web_sm”模型安装为

将模型导入为

    import en_core_web_sm
    nlp = en_core_web_sm.load()
    doc = nlp("My name is Raghu Ram. I live in Kolkata.")
    for ent in doc.ents:
      print(ent.text, ent.label_)

创建集群时使用Databricks ML运行时分发

然后,您可以从安装库UI安装spacy(只需转到群集/库并像往常一样安装),或通过%sh、%pip或%conda安装spacy

然后加载英语语料库:

%蟒蛇

进口空间
spacy.cli.download(“en_core\u web\u lg”)

如果我的答案对您有帮助,您可以将其作为答案接受(单击答案旁边的复选标记,将其从灰色变为填充)。这可能对其他社区成员有益。谢谢。是的,答案很有帮助。但现在我们面临另一个与路径相关的问题,我们无法打开从“/FileStore”到笔记本的任何脚本。如果你能在这里自己回答这一点就太好了。我在我的Azure Databricks笔记本中遵循了这一步骤,但我运行了第二步,仍然得到错误:[E050]找不到“en_core_web_sm”模型。它似乎不是快捷链接、Python包或数据目录的有效路径。
    import en_core_web_sm
    nlp = en_core_web_sm.load()
    doc = nlp("My name is Raghu Ram. I live in Kolkata.")
    for ent in doc.ents:
      print(ent.text, ent.label_)