Presto | 概述

发表于2023-05-19|更新于2023-05-23|编程文摘

|浏览量:

Presto 是一个分布式 SQL 查询引擎，专为查询大数据而设计。它可以在一个或多个异构的数据源上查询大数据集。

别误解，Presto 不是数据库

尽管 Presto 被许多社区成员称为数据库，但我们必须明确 Presto 的定位。

Presto 理解 SQL，但并不提供标准数据库的全部功能。
Presto 不是通用的关系型数据库，也不是 MySQL、PostgreSQL 或 Oracle 等数据库的替代品。
Presto 的设计目的也不是在线事务处理（OLTP）。这一点也适用于许多其他为数据仓库或分析优化的数据库。

简而言之，Presto 的重点在于使用大数据环境提供快速的交互式数据分析和报告。如果你需要事务支持、持久化存储或 OLTP 工作负载的支持，Presto 可能不满足你的需求。

Presto 角色

Presto 提供一种分布式查询方式来高效查询和分析大数据。它专注于低延迟的交互式分析查询而非事务处理。

Presto 是一款利用分布式查询高效查询大数据的工具。如果你处理 TB 级或 PB 级的数据，您很可能使用与 Hadoop 和 HDFS 交互的工具。Presto 的设计目的就是为替代使用 MapReduce 作业管道（如 Hive 或 Pig）查询 HDFS 的工具，但 Presto 不限于访问 HDFS。Presto 已经扩展到多种数据源，包括传统关系数据库和其他数据源如 Cassandra。

Presto 是为数据仓库和分析而设计的，用于数据分析、聚合大量数据和生成报告。这些工作负载通常归类为联机分析处理（OLAP）。

谁在维护 Presto

Presto 最初由 Facebook 的工程师研发，现已作为开源项目，不仅有 Facebook 内部团队在推进，也有许多社区开发者在参与。

（END）

文章作者: Johnson Lin

文章链接: http://linjiangxiong.com/2023/05/19/presto-overview/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Johnson Lin！

相关推荐

Presto | 保留关键字

Presto 保留了一些关键词。如果你想将这些关键词直接用作字段名，请使用双引号 " 将其包裹。例如： 12"VALUES""GROUP" 以下是 Presto 保留关键词完整列表： AALTER AND AS BBETWEEN BY CCASE CAST CONSTRAINT CREATE CROSS CUBE CURRENT_DATE CURRENT_TIME CURRENT_TIMESTAMP CURRENT_USER DDEALLOCATE DELETE DESCRIBE DISTINCT DROP EELSE END ESCAPE EXCEPT EXECUTE EXISTS EXTRACT FFALSE FOR FROM FULL GGROUP GROUPING HHAVING IIN INNER INSERT INTERSECT INTO IS JJOIN LLEFT LIKE LOCALTIME LOCALTIMESTAMP NNATURAL NORMALIZE NOT NULL OON OR ORDER OUTE...

Presto | 逻辑运算符

逻辑运算符运算符描述示例 AND 当运算符 AND 两边的表达式的结果都为 true 时，整个运算结果才为 true，否则，只要有一方为 false，则结果为 false。 a AND b OR 当运算符 OR 两边的表达式的结果只要有一个为 true 时，整个运算结果为 true；两边的表达式的结果均为 false，则结果为 false。 a OR b NOT 如果布尔值为 false 返回 true；如果布尔值为 true 返回 false。 NOT a NULL 值对逻辑运算符的影响如果表达式的一边或两边是 NULL，那么 AND 运算符的结果可能是 NULL。如果 AND 运算符至少有一边是 FALSE，那么表达式的结果为 FALSE： 12345SELECT CAST(null AS boolean) AND true; -- nullSELECT CAST(null AS boolean) AND false; -- falseSELECT CAST(null AS boolean) AND CAST(null AS boolean...

Presto | JSON 与支持的数据类型之间相互转换

Presto 支持的各种数据类型的值如何转换为 JSON 格式？Presto 支持将如下基本数据类型的值转换为 JSON 格式： BOOLEAN、TINYINT、SMALLINT、INTEGER、BIGINT、REAL、DOUBLE、VARCHAR。此外，Presto 同样支持将满足以下条件的数组（ARRAY）、映射（MAP）或行（ROW）转换为 JSON 格式：数组的元素类型须为上述某一受支持的数据类型；映射的键类型是 VARCHAR 且值类型须为上述某一受支持的数据类型；行的每个字段类型均须为上述某一受支持的数据类型。示例例 1 NULL 将换为 JSON： 1SELECT CAST(NULL AS JSON); 1234 _col0------- NULL(1 row) 例 2 INTEGER 将换为 JSON： 1SELECT CAST(1 AS JSON); 1234 _col0------- 1(1 row) 例 3 BIGINT 将换为 JSON： 1SELECT CAST(9223372036854775807 AS JSON); 1234 ...

Presto | IP 地址函数

ip_prefix(ip_address, prefix_bits) → ipprefix使用子网掩码长度 prefix_bits，返回 IP 地址 ip_address 的 IP 前缀。ip_address 可以是 VARCHAR 类型或者 IPADDRESS 类型。示例 12345SELECT ip_prefix(CAST('192.168.255.255' AS IPADDRESS), 9);SELECT ip_prefix('192.168.255.255', 9);-- 以上两条语句的输出结果均为：-- 192.128.0.0/9 ip_subnet_min(ip_prefix) → ip_address返回子网网段 ip_prefix 指定的最小 IP 地址。示例 12345SELECT ip_subnet_min(IPPREFIX '192.168.255.255/9');-- 输出结果为 192.128.0.0SELECT ip_subnet_min(IPPREFIX '2001:0db8:...

Presto | URL 相关函数

提取相关函数URL 提取功能可以从 HTTP URLs（或任何符合 RFC 2396 的有效 URI）中提取各组成部分。支持以下语法: 1[protocol:][//host[:port]][path][?query][#fragment] 所提取的组成部分不包含 URI 语法分隔符，例如：: 或 ? 。 url_extract_fragment(url) → varchar该函数用以返回 url 地址所包含的，用以指示不同文档片段的片段标识符。即上文提到的 [#fragment] 组成部分，指的是 # 字符之后的内容，不包含 # 符号本身。 url_extract_host(url) → varchar该函数用以解析 url 中包含的地址，并返回其主机名部分。 url_extract_parameter(url, name) → varchar该函数用以解析 url 中的查询字符串，并返回第一个名为 name 的参数的值。参数提取遵循 RFC 1866 中规定的方式。 url_extract_path(url) → varchar该函数用于解析 url 中包含的地址，并返回其...

Presto | 数据类型

Presto 有一套内置的数据类型，如下所述。其他类型可以由插件提供。注意：连接器不需要支持所有类型。有关支持类型的详细信息，请参阅连接器文档。 Boolean 布尔型BOOLEAN 此类型表示布尔值 true 和 false。 Integer 整数TINYINT 存储空间为 8 位的有符号整数，可以存储的值的范围从 $-2^{(8-1)}$ 到 $2^{(8-1)}-1$，即最小值为 -128，最大值为 127。 SMALLINT 存储空间为 16 位的有符号整数，可以存储的值的范围从 $-2^{(16-1)}$ 到 $2^{(16-1)}-1$，即最小值为 -32768，最大值为 32767。 INTEGER 存储空间为 32 位的有符号整数，可以存储的值的范围从 $-2^{(32-1)}$ 到 $2^{(32-1)}-1$，即最小值为 -2147483648，最大值为2147483647。 INT 名称也可用于此类型。 BIGINT 存储空间为 64 位的有符号整数，可以存储的值的范围从 $-2^{(64-1)}$ 到 $2^{(64-1)}-1$，即最小值为 -92...