Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark ApacheSpark for business process?_Apache Spark_Hadoop_Bigdata - Fatal编程技术网

Apache spark ApacheSpark for business process?

Apache spark ApacheSpark for business process?,apache-spark,hadoop,bigdata,Apache Spark,Hadoop,Bigdata,我了解Spark/Hadoop的大数据功能,但有人要求我将其用于一组似乎并不真正适合的流程,我需要进行一次健全性检查 这些流程在较高级别上是并行的,但包含固有的顺序独立子流程,无法并行化。这方面的一个例子是启动的X个并行顶部进程。每个进程都使用不同的配置来运行一组稍微独立的子进程: 下载一组XML(按顺序) 验证每个XML(按顺序) 轻轻地处理每个XML(按顺序) 加载到数据存储中(按顺序) 处理过程包含一些转换,但在大数据方面并不多。该处理是可能受益的一个步骤,但它仍然必须为一个流按顺序完

我了解Spark/Hadoop的大数据功能,但有人要求我将其用于一组似乎并不真正适合的流程,我需要进行一次健全性检查

这些流程在较高级别上是并行的,但包含固有的顺序独立子流程,无法并行化。这方面的一个例子是启动的X个并行顶部进程。每个进程都使用不同的配置来运行一组稍微独立的子进程:

  • 下载一组XML(按顺序)
  • 验证每个XML(按顺序)
  • 轻轻地处理每个XML(按顺序)
  • 加载到数据存储中(按顺序)
处理过程包含一些转换,但在大数据方面并不多。该处理是可能受益的一个步骤,但它仍然必须为一个流按顺序完成

在我看来,这并不是什么大数据。事实上,这似乎是对该平台的完全误用。在这种情况下,唯一的好处可能是为了支持目的而整合多个平台,但一般来说,spark/hadoop生态系统对这种业务流程没有好处,对吗


还是我疯了?

对我来说,你的问题真的取决于:

  • 数据的规模
  • 如果您真的不能并行地执行(加载和验证xml听起来像是并行的,但您比我更清楚)
  • 如果每次都需要执行所有流程,或者部分流程只需执行一次
  • 我的意思是:如果流程的很大一部分是连续的(并且需要为每个spark作业运行,而不是一次),瓶颈就在那里,那么听起来你是对的,spark的启动时间+复杂性是不使用它的很好的理由。
    但是,如果你被要求使用Spark,可能有一个很好的理由。

    规模不是大数据,而是大数据。其顺序的原因是一条记录的处理取决于一些先前记录的值。理论上它可以并行存储,但仍然有一个后处理来执行这些校准计算,这意味着另一个平台或一组逻辑。好的,现在主要的问题是,每个spark作业是否需要运行顺序过程,或者是需要运行一次,并且其上的处理将执行多次。你认为没有spark的过程将需要多长时间?如果少于30分钟,则有真的没有理由这么做。在工作环境中,如果一天结束时你需要做一些事情,你总是可以用两种方法来做,并证明你的方法更好。顺序过程需要在整个数据集上运行。例如,它是一组增量XML文件。处理逻辑需要在处理文件之前处理文件XX+1.再仔细考虑一下,我可能可以将数据流式传输到大数据暂存区,而无需对其进行处理。然后在该区域上运行一个post过程,将数据转换并移动到发布层。post过程仍然必须是连续的,但流式传输过程可以是数据到达的任何顺序。暂存对于一些消费者来说,area仍然是关系型的和可操作的,只是没有为要求更高的消费者进行转换。我个人会为此尝试Apache NiFi,而不是编写Spark代码。我已经看过NiFi,并且仍在研究它。我要找的真正的东西是一个健壮的API和SDK。我们不能销售其他工具的UI,对吗因为这不是客户的需求。所以我们最多只能构建自己的UI并使用底层平台作为引擎。所以任何强调自己UI的工具都无法运行。我还没有确定Nifi是否符合要求。Nifi有一个REST API来创建处理器和组-