NLineInputFormat 案例

wt7018 2021-08-15 原文

一、需求分析

1、文件

hadoop is ok
hadoop not ok
java is fun
php is ok
php is pretty
python is all
go is new

2、需求

对上述文件中每个单词出现的数量进行统计，2行数据一个切片

3、分析

与传统的WordCount相似，但是按行切片，而不是BlockSize

二、代码

前提条件：创建Maven项目，导入依赖，配置log日志

1、Mapper

package com.ln;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class LNMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    Text k = new Text();
    IntWritable v = new IntWritable(1);
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        // 1.获取行
        String line = value.toString();
        // 2.切割
        String[] words = line.split("\\s+");
        // 3.循环写入
        for (String word : words) {
            k.set(word);
            context.write(k, v);
        }
    }
}

2、Reducer

package com.ln;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class LNReducer extends Reducer<Text, IntWritable,Text,IntWritable> {
    IntWritable v = new IntWritable();
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        // 1.累加
        int sum =  0;
        for (IntWritable value : values) {
            sum += value.get();
        }
        // 2. 写入
        v.set(sum);
        context.write(key, v);
    }
}

3、Driver

package com.ln;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class LNDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        args = new String[]{"E:\\a\\input", "E:\\a\\output"};
        // 1. 获取job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        // 2. 设置Jar
        job.setJarByClass(LNDriver.class);
        // 3. 关联 mapper 和 reducer
        job.setMapperClass(LNMapper.class);
        job.setReducerClass(LNReducer.class);
        // 4. 设置 mapper的输出  kv
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        // 5. 设置 最终 输出 kv
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // a. 设置 每个切片中 2 调记录
        NLineInputFormat.setNumLinesPerSplit(job, 2);
        // b、设置 inputFormat 的 格式
        job.setInputFormatClass(NLineInputFormat.class);
        // 6. 设置 输入 输出路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        // 7. 提交 job
        boolean wait = job.waitForCompletion(true);
        System.exit(wait? 0: 1);
    }
}

注意：

核心代码

1、设置一个切片有多少行数据

NLineInputFormat.setNumLinesPerSplit(job, 2);

2、设置InputFormat的格式

job.setInputFormatClass(NLineInputFormat.class);

结果：

运行完成后：

number of splits:4

本文链接：https://www.cnblogs.com/wt7018/p/13612760.html

NLineInputFormat 案例的更多相关文章

Airtest自动化测试实操案例 | iOS应用篇

转自公众号：AirtestProject前言上一篇推送我们聊到了Windows应用的实操案例，而今天我们想跟大家聊一聊 iOS设备的实操案例。因为之前很多同学都反馈说，官方教程里面，绝大多数都是安卓设备的实操，Windows应用和iO...

JQuery案例和插件机制

案例-广告显示和隐藏需求：　　1.当页面加载完，3秒后，自动显示广告　　2.广告显示5秒后，自动消失分析：　　1.使用定时器完成，setTimeout(执行一次定时器) 　　2.分析发现JQuery的显示和隐藏动漫...

html页面自定义文字水印效果案例

在系统开发过程中，一些数据或页面比较敏感的地方，客户会要求实现水印效果，防止内部人员截图或拍照泄露信息。自定 […]...

jquery.toast提示框案例

JQuery信息提示框插件 jquery.toast.js 的使用<link href="h...

Java执行groovy脚本的两种方式

记录Java执行groovy脚本的两种方式，简单粗暴：一种是通过脚本引擎ScriptEngine提供的eva […]...

前端知识案例学习10-HTML5滑动选择器美化

index.html <meta name="viewport" content="width=device-wi...

JQuery广告显示和隐藏案例和JQuery抽奖案例

JQuery广告显示和隐藏案例需求:1.当页面加载完，3秒后。自动显示广告2.广告显示5秒后，自动消失。分析：1.使用定时器来完成。setTimeout (执行一次定时器)2.分析发现JQuery的显示和隐藏动画效果其实就是控制d...

AutoRegister ASM AOP 字节码案例原理 MD

Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱 MyAndroidBlogs b […]...

随机推荐

其他的功能支持-1

Profiles Spring配置文件提供了一种分离应用程序配置部分的方法，使其仅在特定环境中可用。任何@Co […]...

微信小程序开发-概述

微信小程序开发-概述一、小程序申请&APPID 登录微信平台申请成为小程序开发者，小程序不可直接使用 […]...

对于72种常用css3的使用经验

对于72种常用css3的使用经验保存网站源码目的保证有足够的css和js文件源码拿到当前网页的整体布局 […]...

流媒体服务器EasyNVR之安防摄像头互联网监控无插件直播知识全详解（一文扫盲）

1、什么是网络无线视频监控？网络无线视频系统通常指的是安全监视和远程监控领域内用于特定应用的IP监视系统，该 […]...

MATLAB画直方图并在每条柱标上数值，改变列宽

x = rand(100,1); [n,y] = hist(x); bar(y,n); for i = 1:l […]...

从小程序跳转进入公众号

web-view方法前提：小程序的公众号必须是认证的企业号，而且要在小程序公众号的后台添加“veb-view […]...

【软件教程】最新版Xshell，Xftp免费版下载安装和使用

一打开官网地址 http://www.netsarang.com/zh/xshell-download/ 二 […]...

H5播放器内置播放视频（兼容绝大多数安卓和ios）

关于H5播放器内置播放视频，这个问题一直困扰我很长一段时间，qq以前提供白名单已经关闭，后来提供了同层属性的控 […]...

NLineInputFormat 案例

NLineInputFormat 案例的更多相关文章

随机推荐

热门专题

目录导航