今天没事,写了下sequencefile处理小文件实例
废话不说,直接上代码
WholeFileRecordReader:
package com.pzoom.mr.sequence;
import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.ByteWritable;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
public class WholeFileRecordReader extends RecordReader<NullWritable, BytesWritable> {
private FileSplit fileSplit ;
private Configuration conf ;
private boolean processed = false ;
private BytesWritable value = new BytesWritable() ;
@Override
public void close() throws IOException {
}
@Override
public NullWritable getCurrentKey() throws IOException,
InterruptedException {
return NullWritable.get();
}
@Override
public BytesWritable getCurrentValue() throws IOException,
InterruptedException {
return value;
}
@Override
public float getProgress() throws IOException, InterruptedException {
return processed ? 1.0f : 0.0f;
}
@Override
public void initialize(InputSplit inputsplit,
TaskAttemptContext taskattemptcontext) throws IOException,
InterruptedException {
this.fileSplit = (FileSplit) inputsplit ;
this.conf = taskattemptcontext.getConfiguration();
}
@Override
public boolean nextKeyValue() throws IOException, InterruptedException {
if (!processed) {
byte[] contents = new byte[(int)fileSplit.getLength()] ;
Path file = fileSplit.getPath();
FileSystem fs = file.getFileSystem(conf);
FSDataInputStream in = null ;
in = fs.open(file);
IOUtils.readFully(in, contents, 0, contents.length);
value.set(contents, 0, contents.length);
IOUtils.closeStream(in);
processed = true ;
return true ;
}
return false;
}
}
WholeFileInputFormat:只需要重载createRecordReader()和isSplitable()方法就行,代码如下:
package com.pzoom.mr.sequence;
import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.ByteWritable;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.JobContext;
import org.apache.hadoop.mapreduce.RecordReader;
import org.apache.hadoop.mapreduce.TaskAttemptContext;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
public class WholeFileInputFormat extends FileInputFormat<NullWritable, BytesWritable>{
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false ;
}
@Override
public RecordReader<NullWritable, BytesWritable> createRecordReader(
InputSplit inputsplit, TaskAttemptContext taskattemptcontext)
throws IOException, InterruptedException {
WholeFileRecordReader reader = new WholeFileRecordReader();
reader.initialize(inputsplit, taskattemptcontext);
return reader;
}
}
测试类:SmallFilesToSequenceFileConverter
package com.pzoom.mr.sequence;
import java.io.IOException;
import java.util.Random;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.InputSplit;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
public class SmallFilesToSequenceFileConverter {
static class SequenceFileMapper extends Mapper<NullWritable, BytesWritable, Text, BytesWritable> {
private Text filenameKey;
@Override
protected void setup(Context context) throws IOException,
InterruptedException {
InputSplit split = context.getInputSplit();
Path path = ((FileSplit)split).getPath();
filenameKey = new Text(path.toString());
}
@Override
protected void map(NullWritable key, BytesWritable value,
Context context) throws IOException, InterruptedException {
context.write(filenameKey, value);
}
}
public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
Configuration conf = new Configuration() ;
Job job = new Job(conf,"fdaf");
FileInputFormat.setInputPaths(job, new Path("D:/keywordzip-zip/testNull")) ;
FileOutputFormat.setOutputPath(job, new Path("D:/mapreduce-out/1AA" + new Random().nextInt(100))) ;
job.setJarByClass(SmallFilesToSequenceFileConverter.class);
job.setInputFormatClass(WholeFileInputFormat.class);
job.setOutputFormatClass(SequenceFileOutputFormat.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(BytesWritable.class);
job.setMapperClass(SequenceFileMapper.class);
job.waitForCompletion(true);
}
}
以上代码可以正确运行,输出二进制文件
分享到:
相关推荐
利用Hadoop的sequencefile处理小文件的小程序
小文件合并Sequencefile word.jar
Hadoop中将SequenceFile转换成MapFile的主要方法:给Sequencefile重建索引的程序
一般情况下有四种处理海量小文件的方法,分别为默认输入格式TextInputFormat、为处理小文件而设计的CombineFileInputFormat输入格式、SequenceFile技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四...
业务需要hive读取SequenceFile文件,所以把TextFile类型转SequenceFile,再导入hive
本实验要求学生通过SequenceFile实现对多个小文件的封装。 要求如下: 1)使用随机数生成以(整数,字符串)为(key,Value)的文本文件,文件的大小内容任意,文件数量不少于100个; 2)使用SequenceFile对以上文件...
21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件 网址:https://blog.csdn.net/chenwewi520feng/article/details/130455817 本文介绍使用MapReduce读写文件,包括:读写SequenceFile、MapFile、...
sequencefile&mapfile相关测试代码
SequenceFile文件格式
中文文档转成sequencefile文件格式,便于在hadoop下使用操作,java代码
22、MapReduce使用Gzip压缩、Snappy压缩和Lzo压缩算法写文件和读取相应的文件 网址:https://blog.csdn.net/chenwewi520feng/article/details/130456088 本文的前提是hadoop环境正常。 本文最好和MapReduce操作常见...
1.1 SequenceFile概述 1.2 SequenceFile压缩 1.4 SequenceFile读取文件 1.5 SequenceFile总结
spark-SequenceFile及MapFile讲解
为了简化图像处理算法,将OpenCV和Map函数结合并设计了对应的存储方法,实现小图像文件的存储。实验表明,在Hadoop分布式系统平台下,模型不论在小数据量还是在大数据量的测试数据环境中,都具有良好的吞吐性能和...
SequenceFile学习的Java Demo代码 里面包括合并小文件,读取SequenceFile文件,写SequenceFile文件
项目使用vs2015,使用的git上的三方开源框架,进行了裁剪,基于C++创建,读写parquet文件。
序列文件示例 使用序列文件的示例集合 设置: 克隆项目 cd /tmp && git clone https://github.com/sakserv/sequencefile-examples.git 构建项目 cd /tmp/sequencefile-examples && bash -x bin/build.sh 将序列...
图像文件转换为MapReduce可以读写的二进制文件代码Hadoop的计算框架只能处理文本文件,对于图像数据不能直接处理,本代码可以实现将图像文件转换成Mapreduce可以读取的SequenceFile,其中包括单机写入和读取,以及...
图像文件转换为MapReduce可以读写的二进制文件代码Hadoop的计算框架只能处理文本文件,对于图像数据不能直接处理,本代码可以实现将图像文件转换成Mapreduce可以读取的SequenceFile,其中包括单机写入和读取,以及...
HDFS 在处理大型连续文件时提供最佳吞吐量,因此我使用 Apache Mahout 将充满文本文件的目录转换为 SequenceFiles,以文件名作为键,内容作为值。 将默认的 SequenceFileInputFormat 与 Hive 一起使用时,Hive 仅...