亚洲午夜久久久影院伊人
你的位置: 精品少妇牲交视频大全 > 亚洲午夜久久久影院伊人 >一篇著作透顶把握 Hive 中的 Order/Sort/Cluster/Distribute by和 Bucket 桶表
发布日期:2022-06-18 17:12 点击次数:115
巨匠好,我是明哥!
本片著作,咱们往复首下,HIVE 中的 order/sort/cluster/distribute by 和 BUCKET 桶表
1 ORDER BY ORDER BY 会对 SQL 的最终输出效果数据做全局排序; ORDER BY 底层只会有一个Reducer 任务 (多个Reducer无法保证全局有序); 虽然唯有一个 Reducer 任务时,淌若输入数据限制较大,会挥霍较长的臆想打算时分; ORDER BY 默许的排序礼貌是递加 ascending (ASC). 示例语句:select distinct cust_id,id_no,part_date from ads_api_cda_basic_info_parquet_pt order by cust_id;CLUSTER BY in spark web ui
5 BUCKET 桶表HIVE中有 BUCKET 桶表,桶表具有以下上风:
桶表不错支撑高效的 sampling 取样; 桶表对高效的 mapside joins 的支撑更好; 声明桶表时,需要指定分桶字段和桶的个数(CLUSTERED BY(user_id) INTO 31 BUCKETS); 桶表的写入操作,在底层膨胀时,会自动添加 CLUSTER BY 子语句 以按桶表声明时指定的分桶字段来散播数据;(淌若是 0.x 或 1.x 的 HIVE 版块,需要建设参数 set hive.enforce.bucketing = true; HIVE 2.X 后,该参数被remove了,等价于老是TURE;) 桶表的写入操作,在底层膨胀时,会有reducer,且reducer的个数,会自动使用声明桶表时指定的桶的个数;(淌若是 0.x 或 1.x 的 HIVE 版块,需要建设参数 set hive.enforce.bucketing = true; HIVE 2.X 后,该参数被remove了,等价于老是TURE;) 通过采选合乎的分桶字段和分桶数,桶表不错灵验管控表底层的小文献的个数,进而缓解数据歪斜问题和小文献问题; 使用桶表来缓解数据歪斜问题和小文献问题时,统统的更正都在 DDL 这一层,不需要更正 DML 语句添加 CLUSTER/DISTRIBUTE BY 子语句,同期由于 DDL 是系统上线时或后续运维优化休养时的一次性的操作,加多了系统的弹性和运维优化的便利性; 不错使用肖似以下 DDL 语句来声明 BUCKET 桶表,肖似以下DML语句来操作桶表:## DDL CREATE TABLE bucket_tableA(user_id BIGINT, firstname STRING, lastname STRING) COMMENT 'A bucketed copy of user_info' PARTITIONED BY(ds STRING) CLUSTERED BY(user_id) INTO 31 BUCKETS; ## DML INSERT OVERWRITE bucket_tableA select * from xx;
INSERT OVERWRITE bucket_tableA SPARK WEB UI
相关资讯