Apache spark ApacheSpark for business process？_Apache Spark_Hadoop_Bigdata

Apache spark ApacheSpark for business process？

apache-spark hadoop

Apache spark ApacheSpark for business process？,apache-spark,hadoop,bigdata,Apache Spark,Hadoop,Bigdata,我了解Spark/Hadoop的大数据功能，但有人要求我将其用于一组似乎并不真正适合的流程，我需要进行一次健全性检查这些流程在较高级别上是并行的，但包含固有的顺序独立子流程，无法并行化。这方面的一个例子是启动的X个并行顶部进程。每个进程都使用不同的配置来运行一组稍微独立的子进程：下载一组XML（按顺序）验证每个XML（按顺序）轻轻地处理每个XML（按顺序）加载到数据存储中（按顺序）处理过程包含一些转换，但在大数据方面并不多。该处理是可能受益的一个步骤，但它仍然必须为一个流按顺序完

我了解Spark/Hadoop的大数据功能，但有人要求我将其用于一组似乎并不真正适合的流程，我需要进行一次健全性检查

这些流程在较高级别上是并行的，但包含固有的顺序独立子流程，无法并行化。这方面的一个例子是启动的X个并行顶部进程。每个进程都使用不同的配置来运行一组稍微独立的子进程：

下载一组XML（按顺序）
验证每个XML（按顺序）
轻轻地处理每个XML（按顺序）
加载到数据存储中（按顺序）

处理过程包含一些转换，但在大数据方面并不多。该处理是可能受益的一个步骤，但它仍然必须为一个流按顺序完成

在我看来，这并不是什么大数据。事实上，这似乎是对该平台的完全误用。在这种情况下，唯一的好处可能是为了支持目的而整合多个平台，但一般来说，spark/hadoop生态系统对这种业务流程没有好处，对吗

还是我疯了？

对我来说，你的问题真的取决于：

数据的规模

如果您真的不能并行地执行（加载和验证xml听起来像是并行的，但您比我更清楚）

如果每次都需要执行所有流程，或者部分流程只需执行一次

我的意思是：如果流程的很大一部分是连续的（并且需要为每个spark作业运行，而不是一次），瓶颈就在那里，那么听起来你是对的，spark的启动时间+复杂性是不使用它的很好的理由。

但是，如果你被要求使用Spark，可能有一个很好的理由。

规模不是大数据，而是大数据。其顺序的原因是一条记录的处理取决于一些先前记录的值。理论上它可以并行存储，但仍然有一个后处理来执行这些校准计算，这意味着另一个平台或一组逻辑。好的，现在主要的问题是，每个spark作业是否需要运行顺序过程，或者是需要运行一次，并且其上的处理将执行多次。你认为没有spark的过程将需要多长时间？如果少于30分钟，则有真的没有理由这么做。在工作环境中，如果一天结束时你需要做一些事情，你总是可以用两种方法来做，并证明你的方法更好。顺序过程需要在整个数据集上运行。例如，它是一组增量XML文件。处理逻辑需要在处理文件之前处理文件XX+1.再仔细考虑一下，我可能可以将数据流式传输到大数据暂存区，而无需对其进行处理。然后在该区域上运行一个post过程，将数据转换并移动到发布层。post过程仍然必须是连续的，但流式传输过程可以是数据到达的任何顺序。暂存对于一些消费者来说，area仍然是关系型的和可操作的，只是没有为要求更高的消费者进行转换。我个人会为此尝试Apache NiFi，而不是编写Spark代码。我已经看过NiFi，并且仍在研究它。我要找的真正的东西是一个健壮的API和SDK。我们不能销售其他工具的UI，对吗因为这不是客户的需求。所以我们最多只能构建自己的UI并使用底层平台作为引擎。所以任何强调自己UI的工具都无法运行。我还没有确定Nifi是否符合要求。Nifi有一个REST API来创建处理器和组-