2022年6月的中国数据库流行度排行榜再掀风云(完全报告参考“2022年6月中国数据库行业分析报告:智能风起,列存更生”),6月排行榜共有231个数据库参与排名,两名新成员的加入,注入了新活力。本月排行榜前十用一句话可以概括为:TiDB重夺冠军宝座,达梦挺进前三;人大金仓跻身六强,AnalyticDB稳居第十。
由操作系统、数据库、中间件 “三驾马车”共同组成的基础软件,必须具备自主知识产权,才能实现国产化。目前这些基础软件已经具备天时地利,除了在技术端发力,构建完整的信创生态圈至关重要。因此墨天轮本月新增了数据产品、中间件、操作系统、芯片的排行榜,以供大家参考。
2022年5月,数据库管理初创公司 OtterTune 宣布完成了1200万美元A轮融资。OtterTune 于2021年成立于美国,是一家旨在利用人工智能,帮助DBA自动化调优数据库的公司。OtterTune 通过利用AI技术来分析数据库的运行状态,对数据库的运行参数进行持续自动调优,并仅占用较少的系统资源。它适用于基于云的 PostgreSQL 和 MySQL 数据库(Amazon RDS 和 Amazon Aurora)。
PostgreSQL 全球开发组宣布 PostgreSQL 15 的第一个 beta 版本现已可供下载。此版本包含 PostgreSQL 15 正式可用时将提供的所有功能的预览,但该版本的某些细节可能会在最终正式版发布时发生变化。
PostgreSQL 15 Beta 1 的功能亮点:开发者体验提升、性能表现提升、备份、存档和压缩、逻辑复制、管理等。
在Google I/O 2022活动上,谷歌发布了AlloyDB for PostgreSQL,这是一个完全托管的、基于PostgreSQL 研发的、与PostgreSQL兼容的行列混存数据库,适用于苛刻的企业级事务和分析工作负载。支持弹性存储和计算、智能缓存、AI/ML支持的自治管理。
AlloyDB,针对分析查询,由列存引擎提供支持,执行速度比标准PostgreSQL快100倍。AlloyDB自动在基于行的格式和列格式之间组织数据,根据学习工作负载选择正确的列和表,并自动将其转换为列格式,数据最初加载到内存后,AlloyDB会监控数据的变化并确保自动刷新。根据数据更改以及正在执行的查询操作,智能选择基于列、基于行,或是行列混合查询。
列存数据库从数据存储方式上区别于行存数据库,所有数据按列存取。行存数据库在做一些列分析时,必须将所有列的信息全部读取出来;而列存数据库由于其按列存取的特性,在对特定列进行查询分析时,能够有效降低I/O,提高读取性能。此外列存数据库往往还能在数据压缩上带来更大压缩比,节省了磁盘存储空间。
在实践中,列式数据库非常适合 OLAP 类工作负载(例如,数据仓库),这些工作负载通常涉及对所有数据(可能是PB级)高度复杂的查询。
在当今数据大爆炸的时代,列存数据库由于其存储空间少,读取磁盘少以及复杂数据查询效率高的缘故,成为构建数据仓库的理想架构。基于这些管理和应用上的优势,列存数据库应运而生并得到了快速发展。列存数据库的优势:
列的数据特征比较相似,适合压缩,压缩比很高,在数据量较大(如数据仓库) 场景下会节省大量磁盘空间,同时也会提高单位作业下的 I/O 效率。
当表中列数比较多,但是访问的列数比较少时,列存储可以按需读取列数据,大大减少不必要的读IO,提高查询性能。
基于列批量数据向量运算,结合向量化执行引擎,CPU 的缓存命中率比较高,性能比较好,更适合 OLAP 大数据统计分析的场景。
列式存储的起源,可以追溯到 1983年 Cantor 的论文《An Overview of Cantor - A new System for Data Analysis》,随后在1985年SIGMOD85上发表的论文《A Decomposition Storage Model》全面提出列式存储概念,成为列数据库的雏形,这种技术在当时并没有得到足够的重视。
• Sybase公司在1994年推出Sybase IQ Accelerator数据库,这是Sybase IQ列存数据库的雏形,由此列存数据库便由理论在实践中诞生了。
• 从1994年到2005年的十年时间,列式数据库几乎无人问津,而2005年被称为列式数据库的重生之年。这一年 Michael Stonebraker 教授发表了 C-Store 论文,随后在此基础上推出了商用的列式分析型数据库 Vertica。
• 之后的15年间,因用户需求逐渐从交易业务转向分析业务,列式数据库的优势得以发挥,很多厂商开始投入列式数据库的研发,将其应用到 OLAP 分析场景中。
• 亚马逊在2012年发布了 Amazon Redshift 数据库,采用列式存储,应对 MPP 场景,通过云完全托管,可以实现自治管理、备份、运行监控等能力。
• 俄罗斯公司 Yandex 在2016年6月开源了 ClickHouse 列存数据库,具备卓越性能,再次推动了列存数据库发展。