Python 如何降低在databricks工作的财务成本?
我只是想知道在databricks工作时是否有人对最佳实践有任何想法。在databricks中开发它在财务上花费了很多,因此我想知道在其他地方开发python代码最好。考虑到协作工作,是否有一个类似的设置用于协作工作的databricks,它是免费的或使用成本很低Python 如何降低在databricks工作的财务成本?,python,amazon-web-services,azure,databricks,cost-management,Python,Amazon Web Services,Azure,Databricks,Cost Management,我只是想知道在databricks工作时是否有人对最佳实践有任何想法。在databricks中开发它在财务上花费了很多,因此我想知道在其他地方开发python代码最好。考虑到协作工作,是否有一个类似的设置用于协作工作的databricks,它是免费的或使用成本很低 任何建议,非常感谢 Databricks的成本实际上与您正在运行的集群的大小(1个工作者、1个驱动程序或1个驱动程序32个工作者)、集群中机器的规格(低RAM和CPU或高RAM和CPU)以及您让它们运行多长时间(始终运行或生存时间短,
任何建议,非常感谢 Databricks的成本实际上与您正在运行的集群的大小(1个工作者、1个驱动程序或1个驱动程序32个工作者)、集群中机器的规格(低RAM和CPU或高RAM和CPU)以及您让它们运行多长时间(始终运行或生存时间短,也称为“在x分钟不活动后终止”)有关。我还假设您没有运行始终处于高并发群集模式 一些一般性建议是:
- 在dev中使用较小的数据集,例如代表性示例,这将使您能够
- 在dev中使用较小的集群,例如,不要使用大的32节点集群,而是使用2节点的小型集群
- 将生存时间设定为15分钟
- 这些加在一起会降低你的成本
显然,在组装具有代表性的样本和确保输出仍然准确和有用时需要权衡,但这取决于您。数据块的成本实际上与您正在运行的集群的大小有关(1个工人、1个驱动程序或1个驱动程序32个工人?),集群中机器的规格(低RAM和CPU或高RAM和CPU),以及让它们运行多长时间(始终运行或生存时间短,也称为“在x分钟不活动后终止”)。我还假设您没有运行始终处于高并发群集模式 一些一般性建议是:
- 在dev中使用较小的数据集,例如代表性示例,这将使您能够
- 在dev中使用较小的集群,例如,不要使用大的32节点集群,而是使用2节点的小型集群
- 将生存时间设定为15分钟
- 这些加在一起会降低你的成本
显然,在收集有代表性的样品和确保您的输出仍然是准确和有用的过程中有一个权衡,但这取决于您。工作速度更快?不,说真的,这真的很难回答,因为我们不知道您在说什么样的工作量以及您对成本的定义。我敢说,这也取决于n使用databricks为您带来的价值。抱歉,我指的是使用databricks服务的实际成本,单位为美元。我不会说我们使用了大量数据,因此databricks可能不是最好的系统。您会知道另一个比databricks更具成本效益的协作工作区吗?工作快呃?不,说真的,这真的很难回答,因为我们不知道你说的是什么样的工作量,你对成本的定义是什么。我敢说,这也取决于使用databricks给你带来的价值。抱歉,成本太高,我指的是使用databricks服务的实际成本,单位为美元。我不会说我们使用的是l大量数据因此,databricks可能不是最好的系统。您是否知道另一个比databricks更具成本效益的协作工作区?谢谢,我们一定会考虑您的建议。确实需要缩短终止时间。谢谢,我们一定会考虑您的建议。您需要吗减少终止时间。