Apache spark 我的大数据框架设置是否已完成，或者我是否遗漏了一些关键内容？_Apache Spark_Apache Spark Sql_Parquet

Apache spark 我的大数据框架设置是否已完成，或者我是否遗漏了一些关键内容？

apache-spark

Apache spark 我的大数据框架设置是否已完成，或者我是否遗漏了一些关键内容？,apache-spark,apache-spark-sql,parquet,Apache Spark,Apache Spark Sql,Parquet,我下载了20个不同市场上超过20000种全球证券的收盘价。然后，我在这些证券上运行20000个自营交易设置，以获得盈利的交易设置。这个过程很简单，但是这个过程需要云计算的能力来实现自动化，因为它不可能在桌面上运行我是作为一个完全的初学者来研究这个解决方案的，所以请原谅我对技术的理解不够我将价格从单一来源下载到我的计算机上，并保存到Microsoft Excel文件中我是否使用apachearrow将excel文件传输到apacheparquet中？我之所以考虑拼花地板，是因为它是一种柱状存

我下载了20个不同市场上超过20000种全球证券的收盘价。然后，我在这些证券上运行20000个自营交易设置，以获得盈利的交易设置。这个过程很简单，但是这个过程需要云计算的能力来实现自动化，因为它不可能在桌面上运行

我是作为一个完全的初学者来研究这个解决方案的，所以请原谅我对技术的理解不够

我将价格从单一来源下载到我的计算机上，并保存到Microsoft Excel文件中

我是否使用apachearrow将excel文件传输到apacheparquet中？我之所以考虑拼花地板，是因为它是一种柱状存储解决方案，非常适合历史股价文件格式

为了运行我的20000个专有交易设置，我将使用ApacheSpark在我选择的云环境中读取拼花地板文件

这将每天产生高概率的交易结果，并上传到我的网络平台上

根据我目前的研究，这是一个非常简单的设置。提前感谢您的帮助

问候

Levi

很抱歉，您没有大数据设置

您所做的只是使用一台计算机将excel文件转换为拼花地板。如果您能够在合理的时间内读取数据并在磁盘上再次写入，那么您似乎没有“大数据”

你应该做的是：

使用类似于

使用spark从datalake读取数据。有关excel文件，请参阅

没关系。谢谢你的建议。在什么特定的数据量被认为是大数据？没有一个神奇的数字。大数据使您有可能以分布式方式威胁数据，但会增加算法的复杂性。很多时候，只要正确地操作，您就能够使用一台机器工作。