Google cloud platform 使用数据流从PubSub流式传输PubSubmessage(json字符串)时云存储中的数据格式?

Google cloud platform 使用数据流从PubSub流式传输PubSubmessage(json字符串)时云存储中的数据格式?,google-cloud-platform,google-cloud-dataflow,apache-beam,dataflow,Google Cloud Platform,Google Cloud Dataflow,Apache Beam,Dataflow,我们希望使用数据流从Pub Sub流式传输pubsub消息(json字符串),然后在云存储中写入。我想知道在将数据写入云存储时,最好的数据格式是什么?我的进一步用例还可能涉及使用数据流再次从云存储中读取数据,以便根据需要将进一步的操作持久化到Data lake。我想的选项很少: a) 使用数据流将json字符串本身直接写入云存储?我假设,如果从云存储中读取数据,然后处理数据湖的进一步操作,则云存储中文件中的每一行都将被视为一条消息,对吗? b) 使用数据流将json转换为文本文件格式并保存在云存

我们希望使用数据流从Pub Sub流式传输pubsub消息(json字符串),然后在云存储中写入。我想知道在将数据写入云存储时,最好的数据格式是什么?我的进一步用例还可能涉及使用数据流再次从云存储中读取数据,以便根据需要将进一步的操作持久化到Data lake。我想的选项很少:
a) 使用数据流将json字符串本身直接写入云存储?我假设,如果从云存储中读取数据,然后处理数据湖的进一步操作,则云存储中文件中的每一行都将被视为一条消息,对吗?
b) 使用数据流将json转换为文本文件格式并保存在云存储中

c) 还有其他选择吗?

如果以后需要分析数据,您可以使用JSON格式存储数据,以便在中进一步使用。您在a)选项中提到的数据流解决方案将是处理您的场景的好方法。此外,您还可以将云功能与其他功能结合使用,然后将内容写入云存储。您可以使用本文中显示的代码作为此场景的基础,因为这会将信息放入主题中,然后从主题中收集消息,并创建一个云存储对象,将消息作为其内容