查看: 467|回复: 0

领导节点将表的行分布在不同的节点上

[复制链接]

1

主题

0

回帖

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-11-26 14:06:43 | 显示全部楼层 |阅读模式
内存/RAM 比磁盘快得多。更重要的是,由于数据是按列存储的,Redshift 对每个文本和数字列应用不同的数据编码,从而更有效地压缩数据。 柱状格式并不是什么新鲜事。Oracle、Teradata 和 Netezza 等本地仓库也使用它。这里的区别在于它们需要硬件、安装和维护。可能需要数周甚至数月的时间才能开始运行。Redshift 等现代云仓库将数据库作为服务提供,集群在 15 分钟内即可启动并运行。 Redshift 还将列式存储与扩展节点数量结合起来,这让我们实现了“MPP”——大规模并行处理。

大规模并行处理 (MPP) MPP 是跨集群中多个节点协调、同时计算数据的过程。每个节点都使用自己的操作系统和内存,也称为“松散耦合”系统。 另一种选择是“紧耦合”,或对称并行系统(SMP)。单独的处理器使 电子邮件营销列表 用单个操作系统和内存。对于仓库解决方案,MPP 已证明可以提供更好的结果。 MPP 分配计算负载 Redshift架构采用MPP,由领导节点和计算节点组成。领导节点将表的行分布在不同的节点上,这些节点独立地存储和处理数据和查询。如何跨节点分发数据取决于您的分发密钥。 领导节点协调不同节点之间查询的执行。这适用于所有类型的工作负载。完成后,领导节点将合并每个节点的结果,以返回查询的最终结果。



这个过程有很多优点。通过添加节点,您可以添加更多存储、内存和 CPU。对于每个节点,集群的处理能力都会以线性方式增加和扩展。这意味着 10 节点集群处理相同查询的速度大约是 5 节点集群的两倍。 此概念适用于所有三种类型的通用工作负载(加载、转换和即席查询)。例如,将平面文件加载到 Redshift 是一个非常高效的过程,并且还利用了并行处理。领导节点在读取多个文件时将工作负载分散到各个节点上。当您向集群添加更多节点时,负载也会线性扩展。 弹性 – Redshift 如何扩展 由于 MPP 的同步处理,当您向集群添加更多节点时,您可以更快地加载数据、更快地执行转换并更快地返回即席查询的结果。Redshift 利用了云的弹性。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Powered by Discuz! X3.4

© 2001-2013 Comsenz Inc. GMT+8, 2024-10-7 14:24 , Processed in 0.084450 second(s), 20 queries .

快速回复 返回顶部 返回列表