Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark apachespark&x2B;三角洲湖概念_Apache Spark_Apache Kafka_Data Warehouse_Databricks_Delta Lake - Fatal编程技术网

Apache spark apachespark&x2B;三角洲湖概念

Apache spark apachespark&x2B;三角洲湖概念,apache-spark,apache-kafka,data-warehouse,databricks,delta-lake,Apache Spark,Apache Kafka,Data Warehouse,Databricks,Delta Lake,我对Spark+Delta有很多疑问。 1) Databricks建议使用3层(青铜层、银层、金层),但建议使用哪一层进行机器学习?为什么?我想他们建议把数据清理干净,放在黄金层 2) 如果我们抽象出这三个层的概念,我们是否可以将青铜层视为数据湖,将银层视为数据库,将金层视为数据仓库?我的意思是在功能方面 3) Delta architecture是一个商业术语,或者是Kappa architecture的演变,或者是Lambda和Kappa architecture的新趋势?(Delta+L

我对Spark+Delta有很多疑问。

1) Databricks建议使用3层(青铜层、银层、金层),但建议使用哪一层进行机器学习?为什么?我想他们建议把数据清理干净,放在黄金层

2) 如果我们抽象出这三个层的概念,我们是否可以将青铜层视为数据湖,将银层视为数据库,将金层视为数据仓库?我的意思是在功能方面

3) Delta architecture是一个商业术语,或者是Kappa architecture的演变,或者是Lambda和Kappa architecture的新趋势?(Delta+Lambda体系结构)与Kappa体系结构之间的区别是什么

4) 在许多情况下,Delta+Spark的扩展比大多数数据库都要大得多,而且通常要便宜得多。如果我们调整得当,我们可以获得几乎2倍的查询结果。我知道比较实际趋势数据仓库和Feature/Agg数据存储非常复杂,但我想知道如何进行比较

5) 我曾经使用卡夫卡、动画片或事件中心进行流媒体处理,我的问题是,如果我们用三角洲湖表替换这些工具,会出现什么样的问题(我已经知道,一切都取决于许多事情,但我希望对此有一个大致的了解)。

1)让你们的数据科学家来决定。他们应该在白银和黄金区域工作,一些更先进的数据科学家将希望回到原始数据,解析出白银/黄金表中可能未包含的其他信息

2) 青铜=原生格式/三角洲湖格式的原始数据。Silver=三角洲湖中经过消毒和清理的数据。Gold=根据业务需求,通过delta lake访问或推送到数据仓库的数据

3) Delta架构是lambda架构的一个简单版本。在这一点上,Delta架构是一个商业术语,我们将看看将来是否会发生变化

4) Delta Lake+Spark是最具可扩展性的数据存储机制,价格合理。欢迎您根据业务需求测试性能。Delta lake的存储成本将远低于任何数据仓库。您对数据访问和延迟的要求将是一个更大的问题

5) Kafka、Kinesis或Eventhub是从边缘到数据湖获取数据的来源。Delta lake可以作为流式应用程序的源和汇。实际上,使用delta作为源很少有问题。delta lake source依靠blob存储,因此我们实际上解决了许多基础设施问题,但增加了blob存储的一致性问题。Delta lake作为流式作业的来源比kafka/kinesis/event hub更具可扩展性,但您仍然需要这些工具将数据从边缘获取到Delta lake

  • 奖章表是根据我们的客户使用Delta lake的方式提出的建议。你不必完全遵循它;然而,它确实与人们设计EDW的方式非常吻合。至于机器学习和使用哪个表。这将是从事机器学习的人们的选择。有些人可能想访问青铜表,因为这是原始数据,没有对其进行任何处理。其他人可能想要银色的桌子,因为它被认为是干净的,尽管它被放大了。通常,黄金表是高度精炼的,专门用于回答定义明确的业务问题

  • 不完全是。青铜表是原始事件数据,例如,每个事件或度量值一行等。银色表也处于事件/度量级别,但它们经过高度细化,可用于查询、报告、仪表盘等。金色表可以是事实和维度表、聚合表或策划的数据集。重要的是要记住,Delta不打算用作跨国OLTP系统。它实际上是针对OLAP工作负载的

  • Delta架构是我们为Delta Lake的一个特定实现命名的。它本身不是一个商业术语,但希望它成为一个商业术语。有足够的信息来比较和对比Kappa和Lambda体系结构。Delta架构在Delta文档和Databricks博客、技术讲座、YouTube视频等中定义良好

  • 我会问你到底想比较什么?速度、功能、产品等

  • Delta Lake并没有试图替换任何消息发布/子系统,它们有不同的用例。Delta Lake可以连接到您提到的作为订阅者和发布者的每个产品。不要忘记,Delta Lake是一个开放的存储层,它为数据湖带来了符合ACID的事务、高性能和高可靠性


  • 路易。

    卡帕和三角洲建筑有什么区别?您知道我可以调查哪些关于数据访问和延迟的要求来进行比较吗?为什么我们仍然需要卡夫卡/动觉/事件中心这样的工具?我没有使用卡帕架构,所以我无权发表意见。Delta体系结构允许您进行流式处理、批处理或两者兼而有之。使用Kafka/Kinesis/Event Hub的原因是,您通常需要一些灵活的消息队列,以便在接收数据之前将数据从数据生产者(如手机)推送到某种事件总线/中心。在第5部分中,您谈到了一致性问题,而Delta Lake文档称它们提供了ACID(一致性),那不是真的吗?这些是分开的。blob存储最终是一致的。并且在读/写数据时具有一致性。Delta Lake目前仅可用于hdfs。有关更多信息,请参见此处的底层存储系统要求:Delta Lake发布了0.2.0,它支持云存储Amazon S3和Azure Blob存储,并提供了改进的