Apache spark apachespark&x2B；三角洲湖概念_Apache Spark_Apache Kafka_Data Warehouse_Databricks_Delta Lake

Apache spark apachespark&x2B；三角洲湖概念

apache-spark apache-kafka

Apache spark apachespark&x2B；三角洲湖概念,apache-spark,apache-kafka,data-warehouse,databricks,delta-lake,Apache Spark,Apache Kafka,Data Warehouse,Databricks,Delta Lake,我对Spark+Delta有很多疑问。 1） Databricks建议使用3层（青铜层、银层、金层），但建议使用哪一层进行机器学习？为什么？我想他们建议把数据清理干净，放在黄金层 2）如果我们抽象出这三个层的概念，我们是否可以将青铜层视为数据湖，将银层视为数据库，将金层视为数据仓库？我的意思是在功能方面 3） Delta architecture是一个商业术语，或者是Kappa architecture的演变，或者是Lambda和Kappa architecture的新趋势？（Delta+L

我对Spark+Delta有很多疑问。

1） Databricks建议使用3层（青铜层、银层、金层），但建议使用哪一层进行机器学习？为什么？我想他们建议把数据清理干净，放在黄金层

2）如果我们抽象出这三个层的概念，我们是否可以将青铜层视为数据湖，将银层视为数据库，将金层视为数据仓库？我的意思是在功能方面
3） Delta architecture是一个商业术语，或者是Kappa architecture的演变，或者是Lambda和Kappa architecture的新趋势？（Delta+Lambda体系结构）与Kappa体系结构之间的区别是什么
4）在许多情况下，Delta+Spark的扩展比大多数数据库都要大得多，而且通常要便宜得多。如果我们调整得当，我们可以获得几乎2倍的查询结果。我知道比较实际趋势数据仓库和Feature/Agg数据存储非常复杂，但我想知道如何进行比较
5）我曾经使用卡夫卡、动画片或事件中心进行流媒体处理，我的问题是，如果我们用三角洲湖表替换这些工具，会出现什么样的问题（我已经知道，一切都取决于许多事情，但我希望对此有一个大致的了解）。
1）让你们的数据科学家来决定。他们应该在白银和黄金区域工作，一些更先进的数据科学家将希望回到原始数据，解析出白银/黄金表中可能未包含的其他信息
2）青铜=原生格式/三角洲湖格式的原始数据。Silver=三角洲湖中经过消毒和清理的数据。Gold=根据业务需求，通过delta lake访问或推送到数据仓库的数据
3） Delta架构是lambda架构的一个简单版本。在这一点上，Delta架构是一个商业术语，我们将看看将来是否会发生变化
4） Delta Lake+Spark是最具可扩展性的数据存储机制，价格合理。欢迎您根据业务需求测试性能。Delta lake的存储成本将远低于任何数据仓库。您对数据访问和延迟的要求将是一个更大的问题
5） Kafka、Kinesis或Eventhub是从边缘到数据湖获取数据的来源。Delta lake可以作为流式应用程序的源和汇。实际上，使用delta作为源很少有问题。delta lake source依靠blob存储，因此我们实际上解决了许多基础设施问题，但增加了blob存储的一致性问题。Delta lake作为流式作业的来源比kafka/kinesis/event hub更具可扩展性，但您仍然需要这些工具将数据从边缘获取到Delta lake

奖章表是根据我们的客户使用Delta lake的方式提出的建议。你不必完全遵循它；然而，它确实与人们设计EDW的方式非常吻合。至于机器学习和使用哪个表。这将是从事机器学习的人们的选择。有些人可能想访问青铜表，因为这是原始数据，没有对其进行任何处理。其他人可能想要银色的桌子，因为它被认为是干净的，尽管它被放大了。通常，黄金表是高度精炼的，专门用于回答定义明确的业务问题

不完全是。青铜表是原始事件数据，例如，每个事件或度量值一行等。银色表也处于事件/度量级别，但它们经过高度细化，可用于查询、报告、仪表盘等。金色表可以是事实和维度表、聚合表或策划的数据集。重要的是要记住，Delta不打算用作跨国OLTP系统。它实际上是针对OLAP工作负载的

Delta架构是我们为Delta Lake的一个特定实现命名的。它本身不是一个商业术语，但希望它成为一个商业术语。有足够的信息来比较和对比Kappa和Lambda体系结构。Delta架构在Delta文档和Databricks博客、技术讲座、YouTube视频等中定义良好

我会问你到底想比较什么？速度、功能、产品等

Delta Lake并没有试图替换任何消息发布/子系统，它们有不同的用例。Delta Lake可以连接到您提到的作为订阅者和发布者的每个产品。不要忘记，Delta Lake是一个开放的存储层，它为数据湖带来了符合ACID的事务、高性能和高可靠性

路易。
卡帕和三角洲建筑有什么区别？您知道我可以调查哪些关于数据访问和延迟的要求来进行比较吗？为什么我们仍然需要卡夫卡/动觉/事件中心这样的工具？我没有使用卡帕架构，所以我无权发表意见。Delta体系结构允许您进行流式处理、批处理或两者兼而有之。使用Kafka/Kinesis/Event Hub的原因是，您通常需要一些灵活的消息队列，以便在接收数据之前将数据从数据生产者（如手机）推送到某种事件总线/中心。在第5部分中，您谈到了一致性问题，而Delta Lake文档称它们提供了ACID（一致性），那不是真的吗？这些是分开的。blob存储最终是一致的。并且在读/写数据时具有一致性。Delta Lake目前仅可用于hdfs。有关更多信息，请参见此处的底层存储系统要求：Delta Lake发布了0.2.0，它支持云存储Amazon S3和Azure Blob存储，并提供了改进的