数据流管道中的外部Python依赖项

数据流管道中的外部Python依赖项,python,google-cloud-dataflow,apache-beam,Python,Google Cloud Dataflow,Apache Beam,python依赖项可以加载到Google云数据流管道中吗 我想使用它逐行读取数据,以自动检测常见短语/bigram(两个经常相邻出现的单词) 因此,管道的第一次运行是将每个句子传递给短语建模者 然后,第二次通过管道将采用相同的短语建模器,并将该短语建模器应用于每个句子,以确定应一起建模的短语。例如: 如果machine和learning经常出现在语料库中,它们将被转换为单个单词machine\u learning 这是否可能在数据流中实现 在工作机器上强制执行pip install gens

python依赖项可以加载到Google云数据流管道中吗

我想使用它逐行读取数据,以自动检测常见短语/bigram(两个经常相邻出现的单词)

因此,管道的第一次运行是将每个句子传递给短语建模者

然后,第二次通过管道将采用相同的短语建模器,并将该短语建模器应用于每个句子,以确定应一起建模的短语。例如:

  • 如果
    machine
    learning
    经常出现在语料库中,它们将被转换为单个单词
    machine\u learning
这是否可能在数据流中实现


在工作机器上强制执行pip install gensim能否传递生成/需求文件?

您可以查看此页面以管理管道中的依赖项:

示例:对于PyPI上的包,可以通过添加以下命令行选项来使用需求文件:

--需求文件requirements.txt