将数据帧存储到R中的Google云平台(GCP)

将数据帧存储到R中的Google云平台(GCP),r,google-cloud-platform,google-cloud-storage,R,Google Cloud Platform,Google Cloud Storage,我正在学习R语言编程,想学习存储基础知识。我已经创建了一个R脚本,从Google Analytics API获取数据,并将其存储在本地数据框(在我自己的计算机上)中,以便能够对数据应用新的处理方法。现在,我正在寻找将这些数据存储在谷歌云存储上的正确方法,以便能够在需要时访问这些数据 以下是我想象的步骤: 第一次运行脚本时 从Google Analytics API获取数据,并将其放入R中的数据框中 以.csv格式保存此数据帧(my_df.csv) 将此csv发送到Google云存储 第二次(和下

我正在学习R语言编程,想学习存储基础知识。我已经创建了一个R脚本,从Google Analytics API获取数据,并将其存储在本地数据框(在我自己的计算机上)中,以便能够对数据应用新的处理方法。现在,我正在寻找将这些数据存储在谷歌云存储上的正确方法,以便能够在需要时访问这些数据

以下是我想象的步骤:

第一次运行脚本时

  • 从Google Analytics API获取数据,并将其放入R中的数据框中
  • 以.csv格式保存此数据帧(my_df.csv)
  • 将此csv发送到Google云存储
  • 第二次(和下一次)运行脚本时

  • 从谷歌云存储获取my_df.csv
  • 从Google Analytics API获取数据并将其放入R(new_df.csv)中的数据框中
  • 合并新的_df.csv和我的_df.csv
  • 将此合并数据集另存为my_df.csv
  • 将my_df.csv发送到Google云存储(这样,它将替换my_df.csv当前版本)
  • 有更好的方法吗?

    提前感谢您的建议

    有没有更好的方法将数据帧存储到R中的Google云平台

    我觉得你的方法不错,但如果你想使用谷歌云产品进行实践,我会向你推荐以下内容:

    用于:

  • 从Google Analytics API获取数据,并将其放入R中的数据框中
  • 以.csv格式保存此数据帧(my_df.csv)
  • 将此csv发送到Google云存储
  • 如果您正在学习R,Python在数据科学或机器学习方面也是一种很棒的语言,它将为您在Google云中打开许多可能性

    对于Python语言 您可以使用云函数来执行此脚本。使用云功能的一些好处是:

    • 是运行代码/脚本的最简单方法
    • 它可以自动扩展、高可用性和容错性
    • 您只需在代码运行时付费
    • 它连接并扩展云服务,例如,它可以与云存储一起使用
    我附上了一篇关于如何使用Python设置云函数的文章

    我也会附上一个好帖子

    至于自动执行代码,您可以尝试使用它,它可以让您随时自动运行代码(在本例中,您将提前定义Google的云功能)

    如果您想使用纯R,另一种选择是在GCE实例中使用
    cron作业
    ,我将在后面解释

    对于R的语言 您可以在中设置Google Compute实例。它不一定是一台大型机器,您可以启动一个
    f1 micro
    实例来运行R代码,并实现
    cron作业
    ,以便在所需的日期和时间自动运行脚本

    您将找到有关在Linux中添加cron作业的更多信息


    至于:

  • 从谷歌云存储获取my_df.csv
  • 从Google Analytics API获取数据并将其放入R(new_df.csv)中的数据框中
  • 合并新的_df.csv和我的_df.csv
  • 将此合并数据集另存为my_df.csv
  • 将my_df.csv发送到Google云存储(这样,它将替换my_df.csv当前版本)
  • 如果您遵循其中一种建议的解决方法,您已经有了一个每周运行x次的自动脚本

    您不必执行第1步到第5步中的任何一步,因为脚本将运行并自动使用您的Google Analytics数据获取新的数据帧

    此外,您实际上不需要使用
    new_df.csv
    重命名文件,因为云存储的对象支持版本控制,如图所示,因此,您可以在合并过程后覆盖存储桶中已经存在的文件

    我希望这有帮助。尽管如此,正如我之前所说,你的方法对我来说似乎很好,应该如你所解释的那样有效