主要观点总结
本文介绍了DataBricks的创始人和CTO马泰·扎哈里亚在演讲中提到的数据库问题,以及他和迈克尔·斯通布雷克合作开发DBOS(面向数据库的操作系统)的历程。DBOS将数据库作为操作系统的基础,将所有应用程序和操作系统的状态存储在分布式数据库中,通过数据库事务来访问状态。文章还介绍了DBOS的特点,以及它相较于传统操作系统和开源软件的优势。
关键观点总结
关键观点1: 马泰·扎哈里亚在演讲中提到DataBricks遇到的调度和状态跟踪问题。
DataBricks需要在云上调度上百万个Spark任务并跟踪这些任务的状态,选择Postgres作为数据库但面临压力。扎哈里亚提到PostgreSQL性能不佳,引起了迈克尔·斯通布雷克的注意。
关键观点2: 迈克尔·斯通布雷克与马泰·扎哈里亚合作开发DBOS。
斯通布雷克提出将数据库作为操作系统的基础,提出了DBOS的概念。DBOS将所有应用程序和操作系统的状态存储在分布式数据库中,并通过数据库事务访问状态。这种架构简化了集群调度、消息传递、文件系统等操作系统服务。
关键观点3: DBOS的特点和优势。
DBOS具有集群调度程序可以将任务和工作程序的信息存储在数据库表中,通过数据库事务保证对任务状态的并发访问。此外,使用数据库日志功能可以追踪应用程序状态的访问,简化应用程序的分析、监控、调试和保护。DBOS还具有多种安全优势。
关键观点4: DBOS与现有技术的对比。
DBOS不同于传统的操作系统和开源软件,它将数据库作为核心组件,简化了程序员的工作。与PostgreSQL等开源软件相比,DBOS不是完全开源的,这可能对一些希望“自研”并“弯道超车”的国内厂商不利。
文章预览
0 1 被"惹恼"的数据库巨佬 2021年,DataBricks的创始人和CTO,Spark的发明人马泰·扎哈里亚在斯坦福做了一次演讲。 在演讲中,他提到了DataBricks遇到的一个烦人的问题,D ataBricks经常需要在云上调度上百万个Spark任务 ,并且跟踪这些任务的状态(等待、运行、完成、失败)。 这些任务非常小,用进程/线程来管理并不合适,太重了,并且进程线程的调度是单机的,DataBricks需要跨越多个计算机调度。 Databricks团队选择Postgres作为任务调度和状态跟踪的数据库,尽管Postgres成熟稳定,但是管理超大规模的分布式任务,在短时间内记录一百万个任务的状态变化,压力太大了。 Matei Zaharia抱怨说: PostgreSQL太慢了! 这可“惹恼”了听演讲的一位大佬迈克尔.斯通布雷克。 迈克尔.斯通布雷克可不是普通大佬,应该是巨佬,数据库领域只有4个人获得了图灵奖。 (1)查尔
………………………………