Hadoop是什么

1）Hadoop是一个分布式系统大数据处理框架

2）主要解决，海量数据的存储和海量数据的分析计算问题。

狭义：hadoop就是一个框架而已，包含了hdfs（hadoop分布式文件系统，存储）、mapreduce（分布式离线计算）、yarn（资源调度框架）

广义：即生态系统，storm实时计算框架、flume数据采集、hive数据仓库工具、hbase非关系型数据库（大数据中的mysql）、zookeeper分布式协调服务、kafka消息队列（中间件）、sqoop数据导入导出等

Hadoop的优势（分布式基础架构）

技术选型

1）高可靠性：因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4）高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。

1）Hadoop HDFS：（hadoop distribute file system ）一个高可靠、高吞吐量的分布式文件系统。

2）Hadoop MapReduce：一个分布式的离线并行计算框架。

3）Hadoop YARN：作业调度与集群资源管理的框架。

4）Hadoop Common：支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）。

转载地址：http://ksazi.baihongyu.com/

你可能感兴趣的文章