Presto 是一个分布式 SQL 查询引擎,专为查询大数据而设计。它可以在一个或多个异构的数据源上查询大数据集。

别误解,Presto 不是数据库

尽管 Presto 被许多社区成员称为数据库,但我们必须明确 Presto 的定位。

  • Presto 理解 SQL,但并不提供标准数据库的全部功能。
  • Presto 不是通用的关系型数据库,也不是 MySQL、PostgreSQL 或 Oracle 等数据库的替代品。
  • Presto 的设计目的也不是在线事务处理(OLTP)。这一点也适用于许多其他为数据仓库或分析优化的数据库。

简而言之,Presto 的重点在于使用大数据环境提供快速的交互式数据分析和报告。如果你需要事务支持、持久化存储或 OLTP 工作负载的支持,Presto 可能不满足你的需求。

Presto 角色

Presto 提供一种分布式查询方式来高效查询和分析大数据。它专注于低延迟的交互式分析查询而非事务处理。

Presto 是一款利用分布式查询高效查询大数据的工具。如果你处理 TB 级或 PB 级的数据,您很可能使用与 Hadoop 和 HDFS 交互的工具。Presto 的设计目的就是为替代使用 MapReduce 作业管道(如 Hive 或 Pig)查询 HDFS 的工具,但 Presto 不限于访问 HDFS。Presto 已经扩展到多种数据源,包括传统关系数据库和其他数据源如 Cassandra。

Presto 是为数据仓库和分析而设计的,用于数据分析、聚合大量数据和生成报告。这些工作负载通常归类为联机分析处理(OLAP)。

谁在维护 Presto

Presto 最初由 Facebook 的工程师研发,现已作为开源项目,不仅有 Facebook 内部团队在推进,也有许多社区开发者在参与。

(END)