本文共 652 字,大约阅读时间需要 2 分钟。
1)Hadoop是一个分布式系统大数据处理框架
2)主要解决,海量数据的存储和海量数据的分析计算问题。
狭义:hadoop就是一个框架而已,包含了hdfs(hadoop分布式文件系统,存储)、mapreduce(分布式离线计算)、yarn(资源调度框架)
广义:即生态系统,storm实时计算框架、flume数据采集、hive数据仓库工具、hbase非关系型数据库(大数据中的mysql)、zookeeper分布式协调服务、kafka消息队列(中间件)、sqoop数据导入导出等
技术选型
1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。
1)Hadoop HDFS:(hadoop distribute file system )一个高可靠、高吞吐量的分布式文件系统。
2)Hadoop MapReduce:一个分布式的离线并行计算框架。
3)Hadoop YARN:作业调度与集群资源管理的框架。
4)Hadoop Common:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。
转载地址:http://ksazi.baihongyu.com/