博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop elementary course
阅读量:5740 次
发布时间:2019-06-18

本文共 1756 字,大约阅读时间需要 5 分钟。

导引

两个主要的问题
如何存储海量数据
如何分析海量数据

Hadoop就是Hadoop项目

它包括Common, Avro, MapReduce, HDFS, Pig, Hive, Hbase, ZooKeeper, Sqoop, Oozie

Hadoop文件系统适合于有数据流(一次写,多次读)和运行的普通主机上的海量数据

但是Hadoop文件系统部适合运行延迟性输入,多次写以及随意修改的小文件

HDFS 框架

分块:默认64M(很大,因为用于海量数据)
名字结点:含有文件系统的目录,文件信息以及相应的分块信息(很重要)
数据结点:储存分块信息
HA策略:1.x只能有一个名字结点,2.x之后就有针对名字结点的活动-待机模式

MapReduce

就是用于处理并行计算海量数据的编程模式
举个例子,求9个数字的最大值
第一步,调用map函数得到每三个数的最大值,这三个数都是用Hadoop文件系统的方式储存的
第二步,用reduce函数得到最大的值

总结,Hadoop文件系统就是提供储存海量数据在多个主机上的方法,以及相应的策略

而Mapreduce就是用分而治之的思想来分析数据

INTRODUCTORY

the two main question
first, how to handle the mass data storage - HDFS
second, how to analyze the mass data - MapReduce

Hadoop = The Hadoop projects

including Common, Avro, MapReduce, HDFS, Pig, Hive, Hbase, ZooKeeper, Sqoop, Oozie

Hapood is suitable for very large files which possess streaming date access and run in commodity hardware.

but hadoop is not proper for small files which have low-latency date access, multiply writer, arbitrary modification.

HDFS Frame
Block: default 64M(big, because for mass data)
NameNode: contain catalogue of the file system, file info and according block info. (crucial)
DateNode: store block info.
HA strategy: 1.x just has one NameNode, and after 2.x, there is active-standy pattern of NameNode.

MapReduce
which is progroming, using for parallel computation of mass data.
For example, get max of the nice numbers.
Firstly, using map function get max of three numbers respectively.
you know that the data is stored by the HDFS.
Secondly, using reduce function to get the maximum value.

In conclusion, the HDFS provide the method that store mess data in many host, incluing some strategy.
then Mapreduce analyze the data by divide and rule.

转载于:https://www.cnblogs.com/chuanlong/archive/2012/12/18/2822933.html

你可能感兴趣的文章
Linux下磁盘保留空间的调整,解决df看到的空间和实际磁盘大小不一致的问题
查看>>
RSA 生成公钥、私钥对
查看>>
测试工具综合
查看>>
asp.net中调用COM组件发布IIS时常见错误 80070005解决方案
查看>>
分享一段ios数据库代码,包括对表的创建、升级、增删查改
查看>>
如何书写高质量的jQuery代码
查看>>
Activity的生命周期整理
查看>>
【记录】JS toUpperCase toLowerCase 大写字母/小写字母转换
查看>>
在 Linux 系统中安装Load Generator ,并在windows 调用
查看>>
Visifire charts ToolBar
查看>>
Mysql查询
查看>>
数据传输流程和socket简单操作
查看>>
ProbS CF matlab源代码(二分系统)(原创作品,转载注明出处,谢谢!)
查看>>
OC中KVC的注意点
查看>>
JQ入门(至回调函数)
查看>>
【洛天依】几首歌的翻唱(无伴奏)
查看>>
OpenSSL初瞻及本系列的博文的缘由
查看>>
ISO8583接口的详细资料
查看>>
tmux不自动加载配置文件.tmux.conf
查看>>
经验分享:JavaScript小技巧
查看>>