Google cloud dataflow Http get/post到数据流

Google cloud dataflow Http get/post到数据流,google-cloud-dataflow,Google Cloud Dataflow,我正试图将一些数据导入数据流,但这些数据不在云存储中——这是一个rss提要,我通常会每x小时检查一次。有没有一种方法可以直接使用SDK来实现这一点,或者我必须先以其他方式将文件放到云存储上 提前谢谢 数据流不提供RSS源的源 您可以从ParDo发出HTTP请求来获取数据。例如,假设提要允许您在某个时间范围内获取消息。然后,您可以创建一个输入集合,其中每个记录表示一个时间范围(例如一小时)。然后,您可以编写一个ParDo,它将获取该时间范围内的消息并发出它们 如果您是流媒体早期访问预览的一部分,那

我正试图将一些数据导入数据流,但这些数据不在云存储中——这是一个rss提要,我通常会每x小时检查一次。有没有一种方法可以直接使用SDK来实现这一点,或者我必须先以其他方式将文件放到云存储上


提前谢谢

数据流不提供RSS源的源

您可以从ParDo发出HTTP请求来获取数据。例如,假设提要允许您在某个时间范围内获取消息。然后,您可以创建一个输入集合,其中每个记录表示一个时间范围(例如一小时)。然后,您可以编写一个ParDo,它将获取该时间范围内的消息并发出它们

如果您是流媒体早期访问预览的一部分,那么
一个解决方案是编写一个appengine应用程序(或等效程序),每X小时检查一次RSS提要,然后使用Google Cloud PubSub发布数据。然后,您可以使用读取数据流中的事件。

这很有意义。。。我试图创建类似HttpIO.Read的东西,但我遇到了一些问题,因为在应用程序引擎上,我们提供了获取url api,但当我在本地测试时,该api不可用。你知道有没有一个简单的解决办法吗。我看过google http客户端,但看不到“明显”的使用方式:(感谢pub-sub的建议,值得我一试。我不确定我是否理解应用程序引擎的问题。能否请您澄清您试图从DirectPipelineRunner中访问什么?您是否试图访问应用程序引擎API或在应用程序引擎上运行的应用程序?很抱歉,混淆了事情,我想说的是我正在编写的内容g目前在本地运行,但我希望最终从app engine运行它,并希望我可以编写一次http get代码来处理这两个问题。在服务上运行时,您的ParDo在GCE VM上执行,而不是在app engine中。因此,您的代码将无法访问app engine运行时环境。因此,您可能不希望依赖于app engine在你的代码里。