和顺纵横信息网

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 266|回复: 0

了解 Apache Hadoop 技术堆栈

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2023-11-30 15:05:48 | 显示全部楼层 |阅读模式
过去几十年来,技术创新以令人难以置信的速度蓬勃发展,用于收集、存储、转换和操作数据的新的、令人兴奋的平台每天都在进入市场。Apache Hadoop在 2006 年进入市场时就是这些颠覆者之一,它使用由许多计算机组成的网络提供分布式存储和大数据处理。本文回顾了 Apache Hadoop 的背景、技术堆栈和架构,以及这个前瞻性平台的常见用例。 目录 什么是 Apache Hadoop? Apache Hadoop 技术堆栈 使用 Integrate.io 管理 Hadoop 中的 ETL 最后的想法 什么是 Apache Hadoop? Apache Hadoop 是一个基于以下假设构建的平台:硬件故障是一种预期,而不是一种异常情况。最初的创意实际上是2003 年 10 月发表的Google 文件系统论文。

该项目在接下来的几年中不断发展,最终采用了一位创始人儿子的玩具大象的名称。 Hadoop 0.1.0于2006年4月发布,其核心技术是 分布式文件系统和处理框架 ,它将大文件块分布在集群中的节点上,然后并行处理数据。由于数千个集群提供本地计算和存储,一个集群的故障对整个系统的影响很小。在 Hadoop 中,期望组件几乎总是无法正常工作,并且系统将分配负载并快速恢复。 这种复杂工程的结果是一种架构,可为包含结构化和非结构化数据的大型数据存储提供高可用性和快速处理速度。它还提供高吞吐量,并且由于它是一个开源项目,开发人员可以调整 Java 代码以满足他们的要求。 Hadoop 与所  电话号码列表  有主要平台兼容,并且可以托管任何规模的应用程序,尤其是那些需要快速、激烈的数据流的应用程序。



了解 Hadoop 如何处理小数据文件。 Apache Hadoop 技术堆栈 Hadoop 的技术堆栈由五个主要模块组成,并辅以各种附加工具、框架和相关项目。由于它是开源的,任何人都可以使用代码来构建自己的项目,因此可供 Hadoop 爱好者使用的平台和框架将不断增长。五个 Hadoop 模块是: Hadoop 通用 Hadoop 分布式文件系统 (HDFS) Hadoop纱线 Hadoop MapReduce Hadoop臭氧 Hadoop 通用 技术人员也将 Hadoop Common 称为Hadoop Core。这是因为它指的是支持整个系统的库和实用程序。它包含技术运行所需的底层操作系统、文件系统、Java 存档 (JAR) 文件、脚本、源代码和文档。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|和顺纵横信息网

GMT+8, 2025-7-19 12:16 , Processed in 0.037248 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表