`
刘小小尘
  • 浏览: 62477 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论
文章列表
HBase是什么? HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所 ...
在Windows下利用cygwin仿unix环境安装配置Hadoop。 子猴也是刚接触到hadoop,对其的配置第一次按照网上的一些说明配置成功了,但有些东西感到不是很清晰,所以又重新把整个过程跑了一遍并记录下来,也是想对整个过程有个清晰的脉络,不正确之处请指教。 1、 所需软件 1.1、Cygwin(截至到目前最新版本是2.685) 下载地址:http://www.cygwin.com/setup.exe 1.2、JDK 1.6.x 1.3、hadoop-0.20.1 下载地址:http://apache.freelamp.com/hadoop/core/hadoop-0 ...
所谓排序,就是要整理文件中的记录,使之按关键字递增(或递减)次序排列起来。当待排序记录的关键字都不相同时,排序结果是惟一的,否则排序结果不惟一。 在待排序的文件中,若存在多个关键字相同的记录,经过排序后这些具有相同关键字的记录之间的相对次序保持不变,该排序方法是稳定的;若具有相同关键字的记录之间的相对次序发生改变,则称这种排序方法是不稳定的。 要注意的是,排序算法的稳定性是针对所有输入实例而言的。即在所有可能的输入实例中,只要有一个实例使得算法不满足稳定性要求,则该排序算法就是不稳定的。一.插入排序 插入排序的基本思想是每步将一个待排序的记录按其排序码值的大小,插到前面已经排好的文件中的适 ...
解决方案,run configuration →arguments → vm arguments 输入-Xms8m -Xmx512m即可
windows→perferance→myeclipse→file and editors→xml→xml catalog 然后add →选择URI →location lib→resource→spring-bean.xsd 截图如下
一,安装java 1,下载java (以下为下载在/work目录下操作) wgethttp://download.oracle.com/otn-pub/java/jdk/7u2-b13/jdk-7u2-linux-i586.tar.gz 2,解压下载文件并改名 tar-zxvf jdk-7u2-linux-i586.tar.gz mvjdk1.7.0_02 java rmjdk-7u2-linux-i586.tar.gz 3,在/etc/profile中加入以下语句: exportJAVA_HOME=/work/java exportJRE_HOME=$JAVA_HO ...
最近使用Map-Reduce的时候,有几个小问题一直困扰着我,因为刚接触Map-Reduce也没多久,对Map-Reduce整个体系没有多少认识,所以仅仅通过实验来猜测结果,慢慢积累,或许以后能阅读Hadoop的源代码。 问题如下: 1、如果文件中的记录key为空,那么这些key为空的记录是否会被认为key相等呢? 2、reduce结束条件是什么? 3、JobConf::setOutputValueClass怎样使用? 对于第一个问题,实验的结果是它们会被规约到一起,这也就能解释我生成的数据中为什么偶尔会出错,原始数据某些行格式有问题,使用split得 ...
编图书馆的时候用了很多ArrayList,发现了反序列化后出现了如下问题:序列化前两个ArrayList中的某一元素指向同一对象,经过序列化再反序列化过程后,他们居然指向了不同对象,出现了不同步的问题,那是为什么呢? 查看一下Java.util里面的ArrayList源代码,发现ArrayList 重写了writeObject方法和readObject方法: /** * Save the state of the <tt>ArrayList</tt> instance to a stream (that * is, serialize i ...
首先解释两个概念,何为序列化?何为反序列化? 序列化:将对象转化成流的过程称为序列化 反序列化:将流转化成对象的过程称之为反序列化 序列化与反序列化必须遵守的原则 a)Java对象 在java中要想使一个java对象可以实现序列化与反序列化,必须让该类实现java.io.Serializable接口 java.io.Serializable接口定义如下: publicinterfaceSerializable { } 从上述定义中可以看到该接口中未定义任何方法,这大大的简化了开发者 b)序列化主要依赖java.io.ObjectOutputStream类,该 ...
String url = "http://anotherbug.blog.chinajavaworld.com/entry/4545/0/"; Pattern p = Pattern.compile("(?<=http://|\\.)[^.]*?\\.(com|cn|net|org|biz|info|cc|tv)",Pattern.CASE_INSENSITIVE); Matcher matcher = p.matcher(url); matcher.find(); System.out.println(matcher.group()); ...
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次运行将生成一个Job,于是JobClient向JobTracker申请一个JobID以标识这个Job;
Dealing with lots of small files in Hadoop MapReduce with CombineFileInputFormat Input to Hadoop MapReduce process is abstracted by InputFormat. FileInputFormat is a default implementation that deals with files in HDFS. With FileInputFormat, each file is splited into one or more InputSplit ...
1.什么是MapReduce? MapReduce是由Google公司的Jeffrey Dean和Sanjay Ghemawat开发的一个针对大规模群组中的海量数据处理的分布式编程模型。MapReduce实现了两个功能。Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。而Reduce是把从两个或更多个Map中,通过多个线程,进程或者独立系统并行执行处理的结果集进行分类和归纳。Map()和Reduce()两个函数可能会并行运行,即使不是在同一的系统的同一时刻。 Google用MapReduce来索引每个抓取过来的Web页面。它取代了2004开始试探的最初 ...
这篇博客是hibernate学习的第一篇,主要简单介绍hibernate框架,之后简单说一下hibernate的目录结构,最后写一个简单的hibernate实例。通过这三步来简单的认识一下hibernate。 废话不多说,步入正题。首先简单介绍一下hibernate框架,它是一种基于JDBC的主流持久化框架,是一个优秀的orm实现;它对JDBC进行了轻量级的封装,大大简化了数据访问层繁杂的重复代码;而且它利用了java反射机制来实现程序的透明性;它的本意是从对象出发而非关系数据库出发,这一点也就是说明它是以面向对象思维解决数据库的操作问题。 以上是从概念上说的 ...
在Java中,针对抽象有两种实现方式,一种是接口,一种是抽象类,有很多读者也因此对这两种实现方式比较困惑,到底是使用接口,还是使用抽象类呢?对于它们的选择甚至反映出对于问题领域本质的理解、对于设计意图的理解是否正确、合理。 在面向对象的设计思想中,所有的对象都是通过类来描绘的,但是反过来,并不是所有的类都是用来描绘对象的,如果一个类中没有描绘一个具体的对象,那么这样的类就是抽象类,抽象类是对那些看上去不同、但是本质上相同的具体概念的抽象,正是因为抽象的概念在问题领域没有对应的具体概念,所以抽象类是不能够实例化的。 1.基本语法区别 在Java中,接口和抽象类的定义语法是不一样的,这里以动物 ...
Global site tag (gtag.js) - Google Analytics