Doris是由百度大数据研发,是一个现代化的MPP(Massively Parallel Processing)大规模并行处理的分析型数据库产品。
- 仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。
Apache Doris 的分布式架构非常简洁,易于运维,并且可以支持 10PB 以上的超大数据集。
Apache Doris 可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。
几乎国内的一二线大厂都在使用它做数据分析
官网地址:https://doris.apache.org/zh-CN/
文档地址:https://doris.apache.org/zh-CN/docs/dev/get-starting/quick-start/
应用场景
报告分析:
- 实时指示板
- 给内部分析师和经理的报告
- 面向用户或面向客户的高并发报表分析
例如面向网站所有者的网站分析、面向广告主的广告报表等场景,并发通常需要数千个QPS,查询延迟需要亚秒级响应。
著名电商京东在广告报表中使用Doris,每天写100亿行数据,并发查询QPS上万,查询延迟为第99百分位的150ms。
特别查询:
- 面向分析人员的自助分析,具有不规则的查询模式和高吞吐量需求。
- 小米基于Doris构建了一个增长分析平台,使用用户行为数据进行业务增长分析,平均查询延迟为10秒,95%查询延迟为30秒或更短,每天有数万个SQL查询。
统一数据仓库建设:
- 一个满足统一数据仓库建设需求的平台,简化了复杂的数据软件栈。
- 海底捞基于Doris的统一数据仓库取代了原有的Apache Spark、Apache Hive、Apache Kudu、Apache HBase、Apache Phoenix的架构,极大地简化了架构。
Data Lake查询:
- 通过使用外部表联合位于Apache Hive、Apache Iceberg和Apache Hudi中的数据,查询性能得到了极大提高,同时避免了数据复制。