在Presto中实现Hive LATERAL VIEW EXPLODE

Created2022-08-24|Updated2022-08-25|编程 Q&A

|Post Views:1310

我是 Presto 新手，我们公司数据仓库中有一张表（表名：dwd_user_country），记录了用户到访过的国家与地区。这里为简化问题描述，将该表结构抽象为两个字段：user_id 和 countries，其中 countries 字段的值采用英文逗号连接用户到访过的国家与地区。

表数据如下表所示：

user_id	countries
26841018	中国,马来西亚,美国,瑞士,泰国,冰岛

现在，我需要从该表中统计每个国家或地区的到访人数，在 Hive 语法中，我可以使用 LATERAL VIEW EXPLODE 将该表的数据转成以下格式，再按 country 字段做 GROUP BY 统计。如果现在是使用 Presto 该怎么做呢？

user_id	country
26841018	中国
26841018	马来西亚
26841018	美国
26841018	瑞士
26841018	泰国
26841018	冰岛

Hive 查询

首先使用 split 函数将 countries 字段分割成数组，再使用 lateral view explode() 将数组炸开：

sql

-- hive
select  t1.user_id,
        t2.country
from dwd_user_country t1 lateral view explode(split(t1.countries, ',')) t2 as country

Presto 查询

首先使用 split 函数将 countries 字段分割成数组，再使用 cross join unnest() 将数组炸开：

sql

-- presto
select  t1.user_id,
        t2.country
from dwd_user_country t1
cross join unnest(split(countries, ',')) as t2(country)

t2 是由 cross join unnest() 隐式创建的表的别名。因此，可以在 SELECT 语句中将 country 写成 t2.country。

（END）

Author: Johnson Lin

Link: http://linjiangxiong.com/2022/08/24/lateral-view-explode-in-presto/

Copyright Notice: All articles on this blog are licensed under CC BY-NC-SA 4.0 unless otherwise stated.

Related Articles

HiveSQL内置函数——DATEDIFF函数

DATEDIFF(string enddate, string startdate)返回从 startdate 到 enddate 的天数。如查询从 2022-08-01 到 2022-08-16 的天数： 12-- 该查询返回结果为 15SELECT DATEDIFF('2022-08-16','2022-08-01'); 使用示例一个常见的例子是计算用户未活跃时长（天），该指标的定义：用户最后一次登录时间距离某天（一般是昨日）的天数。 1234-- 参数dt：20220815SELECT user_id, DATEDIFF(FROM_UNIXTIME(UNIX_tIMESTAMP('${dt}','yyyyMMdd')), last_login_time) FROM mydw.dwd_user 输出示例： 123456+------------+-----------+| user_id | _c1 ...

HiveSQL内置函数——COALESCE函数

COALESCE(T v1, T v2, …)COALESCE，读作 /ˌkəʊəˈles/，该函数用于返回第一个不为 NULL 的 v，如果所有 v 都为 NULL，则返回 NULL。举个例子： SELECT COALESCE(A, B, C) FROM TABLE_NAME 该 SQL 的返回值判断过程如下：如果 A 不为 NULL，则返回 A，否则判断 B 是否为 NULL，若 B 不为 NULL，则返回 B，否则继续判断 C 是否为 NULL，若 C 不为 NULL，则返回 C，否则返回 NULL。使用场景一个常用的场景是在一张表中的某个字段的默认值为 NULL，在查询的时候，如果该字段为 NULL，我们希望返回其他有意义的值而不是 NULL 值，这时就可以使用 COALESCE 函数。例如，用户表（dwd_user）中的常驻城市字段（city），如果为 NULL 时，我们希望在返回给最终用户时可以显示“未知”，而不是 NULL 值，可以这么写： 1SELECT COALESCE(city, ‘未知’) FROM dwd_user 另一个常用场景是两张表做...

HiveSQL内置函数——concat_ws

定义与使用函数 concat_ws() 将两个或多个表达式与分隔符添加在一起。注：另请参阅 CONCAT() 函数。语法11concat_ws(string SEP, string A, string B...) 参数值参数说明 SEP 必填。在每个表达式之间添加的分隔符。如果分隔符为 NULL，则返回 NULL。 A,B,等必填。要连接的字符串。值为 NULL 的字符串将被跳过。示例 1234select concat_ws('-', 'Johnson', 'Lin'), concat_ws('-', NULL, 'Lin'), concat_ws(NULL, 'Johnson', 'Lin') 以上代码的查询结果为 12345+-----------+---+----+|_c0 |_c1|_c2...

在数据处理和分析的过程中，随着业务的发展和变化，我们可能需要对已有的 Hive 表进行调整、清理或修改表结构。为了确保操作的安全性，我们可以在进行这些操作之前先对 Hive 表进行备份。这样一来，即使在操作过程中发生了任何问题，我们也可以通过回退到备份数据来恢复之前的状态。此外，在测试和开发环境中，我们经常需要使用真实的生产数据或者对数据进行一些实验性的操作。为了确保测试和开发工作不会对真实的生产数据造成影响，我们可以从 Hive 表中复制一份数据出来，创建一个安全的数据副本供测试和开发使用。从而可以在不影响真实生产数据的前提下进行各种实验和调试工作。那么，如何快速备份或复制 Hive 表呢？本文将向大家介绍两种简单易行的复制 Hive 表的方法，以确保我们的数据始终处于安全可靠的状态。方法一：使用 create table ... as ...直接使用 create table ... as ... 复制表数据、表字段。语法如下：123create table if not exists 表名as select * from...

Hive表重命名

表更名 SQL： 1alter table 旧表名 rename to 新表名; 执行该命令之后，表数据所在的位置（LOCATION）会移动到新的路径下。例如，将表 test.dws_staff_kpi_day 重命名为 test.dws_staff_kpi_month。在更名前，查看表 test.dws_staff_kpi_day 所在的位置： 1show create table test.dws_staff_kpi_day; 结果如下所示，可以看到表数据位于 hdfs://hdp-cluster/apps/hive/warehouse/test.db/dws_staff_kpi_day 目录下： 1234567891011121314151617181920CREATE TABLE `test.dws_staff_kpi_day`( `user_id` int COMMENT '用户ID', `phone` string COMMENT '手机号码', ...)COMMENT...

Hive中校验两张表中的数据是否相同的方法

Hive 作为一种开源的分布式数据仓库解决方案，被广泛应用于大数据处理和数据分析领域。在实际应用中，我们经常需要对两个或多个表中的数据进行比对，以确保数据的一致性和准确性。下面将介绍如何在 Hive 中校验两张表中数据是否相同的方法。对比两张表的记录数是否相同在进行数据比较之前，首先需要确认两张表（表结构完全相同）的记录数是否相同。比如，假设我们有表 mydw.dwd_user 和表 test.dwd_user，可以通过以下 SQL 分别获取表 mydw.dwd_user 和表 test.dwd_user 的记录数： 12select count(*) as c1 from test.dwd_user;select count(*) as c2 from mydw.dwd_user; 如果 c1 和 c2 不相等，则表不完全相同。对比两张表去重后的记录数是否相同使用以下 SQL 统计表去重后的记录数，如果 dc1 和 dc2 不相等，则说明表不完全相同： 12345select count(*) as dc1from (select distinct * from...