-
【Hadoop教程】(十六)MapReduce优化策略
MapReduce优化策略大概有以下几种: Map和Reduce数量的优化:设置并行度能充分利用集群资源,提高运行效率。详见:谈谈Map task和Reduce task并行度机制…
-
【Hadoop教程】(十五)MapReduce序列化
序列化是指将结构化对象转化为字节流以便在网络中传输或存储到磁盘进行永久存储的过程。反序列化是指将字节流对象转回结构化对象的逆过程。 序列化机制主要用于进程间的通信和永久存储。在Ha…
-
【Hadoop教程】(十四)MapReduce压缩机制
压缩的优势与劣势 压缩我们都不陌生,你平时使用压缩是为啥?对了,减少文件体积,减少存储空间,减少磁盘IO。。。。mapreduce也通过压缩编码对mapper或者reducer的输…
-
【Hadoop教程】(十三)谈谈Map task和Reduce task并行度机制
map和reduce的并行度很重要,因为在大数据分布式系统中,如何充分利用集群资源,提高作业运行效率,是尤为重要的。如果将map和reduce的数量设置为1,那么用户的任务就没有并…
-
【Hadoop教程】(十二)MapReduce实战:分区和排序 实现运营商流量统计分析
本节我们探讨下如果在MR程序中进行分区和排序。讲解shuffle的时候我们说过:mapreduce在map阶段是会进行分区(调用partitioner)、排序(根据key)、com…
-
【Hadoop教程】(十一)MapReduce实战:统计学生成绩
需求: 如下文件包含了学生各科的成绩,现在要统计学生的总成绩,使用MapReduce编程实现。 1 zhangsan 88 12 2 lisi 97 13 3 wangwu 68 …
-
【Hadoop教程】(十)MapReduce实战:WordCount
大数据之WordCount就相当于Java之Hello World。所有人学习大数据都是以WordCount进行入门的。 需求:统计某文件每个单词出现的次数。即假设某文件内容为:H…
-
【Hadoop教程】(九)MapReduce Shuffle详解
MapReduce Shuffle 上节我们知道了,MapReduce任务是分为map任务和reduce任务的。而map阶段处理的数据如何传递给reduce阶段呢?这是mapred…
-
【Hadoop教程】(八)MapReduce概述、优势、基于YARN架构详解
MapReduce是什么? MapReduce是一个分布式计算框架,采用分而治之的思想,将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hado…
-
【Hadoop教程】(七)HDFS JAVA客户端操作
hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作HDFS上的文件(如增删改查)。案例如下: p…