`
Yinny
  • 浏览: 292890 次
  • 性别: Icon_minigender_2
  • 来自: 杭州
社区版块
存档分类
最新评论
文章列表

learning hive by wiki

    博客分类:
  • hive
Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。 Create Table CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMEN ...
hive就是一个将hiveql(其实是sql的子集或者说一点点的超集)语句转化为一系列可以在Hadoop集群上运行的MR的工具,通常在客户端执行 hive 命令(淘宝有ide,所以不用安装hive啦 )然后输入 SQL 语句后, hive 将 SQL 语句生成多个 MR 的 job ,然后将这些 job 提交给 hadoop 进行执行,完成后,再把结果放入到 hdfs 或者本地的临时文件中。 如下图 以下图片摘自淘宝周忱《hive原理》的技术文档 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中 ...
分享聚合dump的是评价的数据库,由于数据量超大且经常超时所以进行了数据源的切换,即从数据库dump切换为云梯dump,整个工作就是由一个mr的job去云梯读取数据然后进行一系列转化最后输出数据到文件的过程。 对于MapReduce编 ...
System.out.println(":ab:cd:ef::".split(":").length);//末尾分隔符全部忽略 System.out.println(":ab:cd:ef::".split(":",-1).length);//不忽略任何一个分隔符 System.out.println(StringUtils.split(":ab:cd:ef::",":").length);//最前面的和末尾的分隔符全部都忽略,apache commons ...
    用最简短的语言解释MapReduce:   We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That's map. The more people we get, the faster it goes.   我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。   Now we get together and add our individual counts. That's reduce.   现在我们到一 ...
之前在写控制双12开关的函数时遇到了SimpleDateFormat多线程问题,首先是我写了这个方法 干哥说里面的方法不好理解,并且已经废弃了,于是谷哥写了如下方法 当时我说SimpleDateFormat不是线程同步的,并发的时候会不安全,但干哥说这个地方不会导致并发所以我也没有去怀疑验证,所以此处采用了谷哥的方法,直到123那天,开关开启,干哥说果真出现并发问题啦~哈哈,因为每个用户的每个淘单都要去调用到该方法,产生了多线程调用,而SimpleDateFormat是定义为静态属性,查看了资料知道时间格式不是同步的,应当为每个线程单独创建一个实例,如果需要多线程并发地访问一个Simple ...
上周总算把这个简单蕴含蛋疼逻辑的简单功能发布了 ,现在回头来总结一下这次做日常的心得, 遇到的头疼问题: 1、因为每一次大分享的时候都可以指定隐私范围,所以淘单的隐私是取所有分享理由中可见范围最大的那条的 ...
Apache 中RewriteRule 规则参数 Apache模块 mod_rewrite 提供了一个基于正则表达式分析器的重写引擎来实时重写URL请求。它支持每个完整规则可以拥有不限数量的子规则以及附加条件规则的灵活而且强大的URL操作机制。此URL操作可以依赖 ...
1、What is Memcached? Free & open source, high-performance, distributed memory object caching system, generic in nature, but intended for use in speeding up dynamic web applications by alleviating database load. Memcached is an in-memory key-value store for small chunks of arbitrary data (string ...
把对webx的学习总结搬到iteye上来 一、 WEBX框架的初始化 (一)、 一个请求如何进入到这个框架中来?在webx2中,它提供了一个servlet:WebxControllerServlet。这个servlet接收请求,处理请求,返回请求结果。 框架要运行前,得先初始化一些资源,资源的初始化是由servlet容器来做的。Servlet容器启动到初始化一个Servlet的过程如下:当Servlet容器(比如Jboss)启动时,它会解析web.xml文件,淘单项目中在web.xml中对WebxControllerServlet的配置如下: 图【1】 对于此配置,servlet容器会创 ...
之前对webx的学习都是有关响应和处理请求的流程和源码实现,配置文件的加载以及service的启动过程,但是对其中一些service并没有具体地去研究其内部是如何实现的,前段时间学习了下这个部分,下面就把它总结一下。 了解webx的人都会知道,webx是有一些列的Service构成的,这些Service构成了一个Service容器,而我们所有的程序都运行在这个Service容器中。每个Service都有不同的分工,共同完成特定的工作。这种基于Service组件的设计是在面向对象编程的初期是非常好的非常流行的一个设计,当然现在仍然在普遍的使用。 rundataService的真正初始化是在con ...
public class UrlTest { public static void main(String[] args) { try { URL myurl = new URL("http://yinny.iteye.com/admin"); BufferedReader br = new BufferedReader(new InputStreamReader( myurl.openStream(), "utf8")); String readstr = br.readLine(); ...
我将按照基类的顺序:InputStream、OutPutStream、Reader、Writer来分别对Java I/O加以总结。 。。。。。整理中 java中的流,简单理解就是管道里有流水,这个管道连接了程序和文件。 InputStream、OutPutStream是字节输入流的所有类的超类。 Reader、Writer是字符输入流的所有类的超类。 Java IO流对象(其实大家都和懂啦,我这里再赘述一下) 1.输入字节流InputStreamIO 中输入字节流的继承图可见上图,可以看出: InputStream 是所有的输入字节流的父类,它是一个抽象类。 ByteArrayInp ...
[size=medium]今早在团队内分享了<通过 HashMap、HashSet 的源代码分析其 Hash 存储机制>,觉得自己又对hashMap的存储机制加深了了解,在分享会上大家讨论讨论的其中一个问题是:hashMap里的indexFor(int h, int length)方法为何不用取模的方式实现而是用&运算实现?当时讨论的结果是%运算比&运算更加耗费时间,下来之后我写了一个方法来印证一下: package com.tina.jdk; /** * @author tina.wyn * */ public class TestIndexFo ...
在JAVA里面,可以用复制语句"A=B"给基本类型的数据传递值,但是如果A,B是两个同类型的数组,复制就相当于将一个数组变量的引用传递给另一个数组;如果一个数组发生改变,那么引用同一数组的变量也要发生改变. 以下是归纳 ...
Global site tag (gtag.js) - Google Analytics