Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 我的大数据框架设置是否已完成,或者我是否遗漏了一些关键内容?_Apache Spark_Apache Spark Sql_Parquet - Fatal编程技术网

Apache spark 我的大数据框架设置是否已完成,或者我是否遗漏了一些关键内容?

Apache spark 我的大数据框架设置是否已完成,或者我是否遗漏了一些关键内容?,apache-spark,apache-spark-sql,parquet,Apache Spark,Apache Spark Sql,Parquet,我下载了20个不同市场上超过20000种全球证券的收盘价。然后,我在这些证券上运行20000个自营交易设置,以获得盈利的交易设置。这个过程很简单,但是这个过程需要云计算的能力来实现自动化,因为它不可能在桌面上运行 我是作为一个完全的初学者来研究这个解决方案的,所以请原谅我对技术的理解不够 我将价格从单一来源下载到我的计算机上,并保存到Microsoft Excel文件中 我是否使用apachearrow将excel文件传输到apacheparquet中?我之所以考虑拼花地板,是因为它是一种柱状存

我下载了20个不同市场上超过20000种全球证券的收盘价。然后,我在这些证券上运行20000个自营交易设置,以获得盈利的交易设置。这个过程很简单,但是这个过程需要云计算的能力来实现自动化,因为它不可能在桌面上运行

我是作为一个完全的初学者来研究这个解决方案的,所以请原谅我对技术的理解不够

  • 我将价格从单一来源下载到我的计算机上,并保存到Microsoft Excel文件中
  • 我是否使用apachearrow将excel文件传输到apacheparquet中?我之所以考虑拼花地板,是因为它是一种柱状存储解决方案,非常适合历史股价文件格式
  • 为了运行我的20000个专有交易设置,我将使用ApacheSpark在我选择的云环境中读取拼花地板文件
  • 这将每天产生高概率的交易结果,并上传到我的网络平台上
  • 根据我目前的研究,这是一个非常简单的设置。提前感谢您的帮助

    问候
    Levi

    很抱歉,您没有大数据设置

    您所做的只是使用一台计算机将excel文件转换为拼花地板。如果您能够在合理的时间内读取数据并在磁盘上再次写入,那么您似乎没有“大数据”

    你应该做的是:

  • 使用类似于
  • 使用spark从datalake读取数据。有关excel文件,请参阅

  • 没关系。谢谢你的建议。在什么特定的数据量被认为是大数据?没有一个神奇的数字。大数据使您有可能以分布式方式威胁数据,但会增加算法的复杂性。很多时候,只要正确地操作,您就能够使用一台机器工作。