和顺纵横信息网

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 308|回复: 0

找出正确的 ETL 需要花费分析项目

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-11-13 12:52:11 | 显示全部楼层 |阅读模式
成本: 在您进行一些分析之前,您甚至可能不知道要提取哪些数据。上传大量冷 S3 数据进行分析需要扩展集群。这意味着额外的成本,因为 Redshift 定价是基于集群的大小。同时,您需要继续为保留冷数据支付 S3 存储费用。 Amazon Redshift Spectrum 允许您查询存储在 Amazon S3 中的数据,而无需先将其加载到 Amazon Redshift 中。出于命名目的,我们将使用“Redshift”表示“Amazon Redshift”,使用“Spectrum”表示“Amazon Redshift Spectrum”。 Redshift Spectrum 兼具两全其美的优点。借助频谱,您可以: 继续使用您的分析应用程序以及您为 Redshift 编写的相同查询。

将冷数据留在 S3 中,并通过 Amazon Redshift 进行查询,无需 ETL 处理。您甚至可以使用单个查询将数据湖中的数据与 Redshift 中的数据连接起来。 将处理与存储分离。由于无需增加集群大小,因此您 沙特阿拉伯电报号码数据 可以节省 Redshift 存储空间。 仅当您对 S3 数据运行查询时才需付费。频谱查询每处理 TB 数据的成本为 5 美元。 缩略图 Spectrum 是为 Redshift 提供 S3 数据接口的“粘合剂”。Redshift 是您的业务应用程序的访问层。Spectrum 是从 S3 访问的数据的查询处理层。下图说明了这些服务之间的关系。 近距离观察:Amazon Redshift Spectrum 的工作原理是什么? 从部署的角度来看,Spectrum 处于“幕后”。



它是私有VPC 中的一组托管节点, 可供任何启用 Spectrum 的 Redshift 集群使用。它将计算密集型任务下推到 Redshift Spectrum 层。该层独立于您的 Amazon Redshift 集群。 要了解如何使用 Redshift Spectrum 运行查询,需要了解三个关键概念: 外部数据目录 外部模式 外部表 外部数据目录包含您希望在 S3 中访问的数据的架构定义。它是您的数据资产的中央元数据存储库。数据目录的潜在选项有: Athena 使用的数据目录 (默认选项) AWS胶水 您自己的 Apache Hive 元 存储(例如 Amazon EMR) 外部架构包含您的表。外部表允许您使用与其他 Amazon Redshift 表相同的 SELECT 语法来查询 S3 中的数据。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|和顺纵横信息网

GMT+8, 2025-7-18 08:26 , Processed in 0.036707 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表