Apache spark apachespark&x2B;三角洲湖概念
我对Spark+Delta有很多疑问。 1) Databricks建议使用3层(青铜层、银层、金层),但建议使用哪一层进行机器学习?为什么?我想他们建议把数据清理干净,放在黄金层 2) 如果我们抽象出这三个层的概念,我们是否可以将青铜层视为数据湖,将银层视为数据库,将金层视为数据仓库?我的意思是在功能方面 3) Delta architecture是一个商业术语,或者是Kappa architecture的演变,或者是Lambda和Kappa architecture的新趋势?(Delta+Lambda体系结构)与Kappa体系结构之间的区别是什么 4) 在许多情况下,Delta+Spark的扩展比大多数数据库都要大得多,而且通常要便宜得多。如果我们调整得当,我们可以获得几乎2倍的查询结果。我知道比较实际趋势数据仓库和Feature/Agg数据存储非常复杂,但我想知道如何进行比较 5) 我曾经使用卡夫卡、动画片或事件中心进行流媒体处理,我的问题是,如果我们用三角洲湖表替换这些工具,会出现什么样的问题(我已经知道,一切都取决于许多事情,但我希望对此有一个大致的了解)。1)让你们的数据科学家来决定。他们应该在白银和黄金区域工作,一些更先进的数据科学家将希望回到原始数据,解析出白银/黄金表中可能未包含的其他信息 2) 青铜=原生格式/三角洲湖格式的原始数据。Silver=三角洲湖中经过消毒和清理的数据。Gold=根据业务需求,通过delta lake访问或推送到数据仓库的数据 3) Delta架构是lambda架构的一个简单版本。在这一点上,Delta架构是一个商业术语,我们将看看将来是否会发生变化 4) Delta Lake+Spark是最具可扩展性的数据存储机制,价格合理。欢迎您根据业务需求测试性能。Delta lake的存储成本将远低于任何数据仓库。您对数据访问和延迟的要求将是一个更大的问题 5) Kafka、Kinesis或Eventhub是从边缘到数据湖获取数据的来源。Delta lake可以作为流式应用程序的源和汇。实际上,使用delta作为源很少有问题。delta lake source依靠blob存储,因此我们实际上解决了许多基础设施问题,但增加了blob存储的一致性问题。Delta lake作为流式作业的来源比kafka/kinesis/event hub更具可扩展性,但您仍然需要这些工具将数据从边缘获取到Delta lakeApache spark apachespark&x2B;三角洲湖概念,apache-spark,apache-kafka,data-warehouse,databricks,delta-lake,Apache Spark,Apache Kafka,Data Warehouse,Databricks,Delta Lake,我对Spark+Delta有很多疑问。 1) Databricks建议使用3层(青铜层、银层、金层),但建议使用哪一层进行机器学习?为什么?我想他们建议把数据清理干净,放在黄金层 2) 如果我们抽象出这三个层的概念,我们是否可以将青铜层视为数据湖,将银层视为数据库,将金层视为数据仓库?我的意思是在功能方面 3) Delta architecture是一个商业术语,或者是Kappa architecture的演变,或者是Lambda和Kappa architecture的新趋势?(Delta+L
路易。卡帕和三角洲建筑有什么区别?您知道我可以调查哪些关于数据访问和延迟的要求来进行比较吗?为什么我们仍然需要卡夫卡/动觉/事件中心这样的工具?我没有使用卡帕架构,所以我无权发表意见。Delta体系结构允许您进行流式处理、批处理或两者兼而有之。使用Kafka/Kinesis/Event Hub的原因是,您通常需要一些灵活的消息队列,以便在接收数据之前将数据从数据生产者(如手机)推送到某种事件总线/中心。在第5部分中,您谈到了一致性问题,而Delta Lake文档称它们提供了ACID(一致性),那不是真的吗?这些是分开的。blob存储最终是一致的。并且在读/写数据时具有一致性。Delta Lake目前仅可用于hdfs。有关更多信息,请参见此处的底层存储系统要求:Delta Lake发布了0.2.0,它支持云存储Amazon S3和Azure Blob存储,并提供了改进的