(分享)数据库与数据仓库的区别

博客分类：

大数据技术
数据库知识

简而言之，数据库是面向事务的设计，数据仓库是面向主题设计的。数据库一般存储在线交易数据，数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余，一般采用符合范式的规则来设计，数据仓库在设计是有意引入冗余，采用反范式的方式来设计。数据库是为捕获数据而设计，数据仓库是为分析数据而设计，它的两个基本的元素是维表和事实表。维是看问题的角度，比如时间，部门，维表放的就是这些东西的定义，事实表里放着要查询的数据，同时有维的ID。

2015-06-24 10:07
浏览 717
评论(0)
分类:数据库

数据仓库数据模型之：极限存储--历史拉链表

博客分类：

Hadoop
大数据技术
Hive

在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等;4. 变化的比例和频率不是很大，比如，总共有1000万的会员，每天新增和发生变化的有10万左右;5. 如果对这边表每天都保留一份全量，那么每次全量中会保存很多不变的信息，对存储是极大的浪费;拉链历史表，既能满足反应数据的历史状态，又可以最大程度的节省存储;举个简单例子，比如有一 ...

2015-06-17 15:44
浏览 1318
评论(0)
分类:研发管理

map和reduce 个数的设定（Hive优化）经典

博客分类：

Hadoop
大数据技术
Hive

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size ...

2015-06-17 14:34
浏览 4598
评论(0)
分类:研发管理

数据库的范式及反范式

博客分类：

范式：英文名称是 Normal Form，它是英国人 E.F.Codd（关系数据库的老祖宗）在上个世纪70年代提出关系数据库模型后总结出来的，范式是关系数据库理论的基础，也是我们在设计数据库结构过程中所要遵循的规则和指导方法。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库.目前有迹可寻的共有8种范式，依次是：1NF，2NF，3NF，BCNF，4NF，5NF，DKNF，6NF。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。通常所用到的只是前三个 ...

2015-06-12 15:10
浏览 813
评论(0)
分类:数据库

Hive JOIN使用详解

博客分类：

大数据技术

Hive是基于Hadoop平台的，它提供了类似SQL一样的查询语言HQL。有了Hive，如果使用过SQL语言，并且不理解Hadoop MapReduce运行原理，也就无法通过编程来实现MR，但是你仍然可以很容易地编写出特定查询分析的HQL语句，通过使用类似SQL的语法，将HQL查询语句提交Hive系统执行查询分析，最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQL查询我们不再累述，这里主要说明Hive中进行统计分析时使用到的JOIN操作。在说明Hive JOIN之前，我们先简单说明一下，Hadoop执行MR Job的基本过程（运行机制），能更好的帮助我们理解H ...

2015-06-11 18:27
浏览 1295
评论(0)
分类:数据库

(转)Dubbo与Zookeeper、SpringMVC整合和使用（负载均衡、容错）

博客分类：

互联网的发展，网站应用的规模不断扩大，常规的垂直应用架构已无法应对，分布式服务架构以及流动计算架构势在必行，Dubbo是一个分布式服务框架，在这种情况下诞生的。现在核心业务抽取出来，作为独立的服务，使前端应用能更快速和稳定的响应。第一：介绍Dubbo背景

2015-06-04 16:49
浏览 1817
评论(0)
分类:研发管理

AWK处理两个文件公共字段

博客分类：

Linux知识

在文件score.txt中存有如下数据：（姓名分数） lisi 88 bokeyuan 97 zhangsan 77 wangwu 89 hongliu 92 zhanghua 97 在文件student.tx

2015-06-03 16:36
浏览 4160
评论(0)
分类:互联网

maven+springMVC+mybatis+junit详细搭建过程(转)

博客分类：

JAVA
SSH技术

目录[-] springMVC+mybatis框架搭建 1. 工程目录结构整理清楚 2. 引入依赖包 3. 配置数据库连接属性 4. 配置spring配置文件

2015-06-01 09:46
浏览 3518
评论(0)
分类:研发管理

hive大数据倾斜总结(转)

博客分类：

大数据技术

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后，总结如下。 1数据倾斜的原因 1.1操作：关键词情形 ...

2015-05-27 18:10
浏览 1068
评论(0)
分类:互联网

mdrill sql使用手册

博客分类：

大数据技术

mdrill sql

mdrill的分区 mdrill的设计默认是使用分区的，也是按照分区进行存储的，除非强制使用single类型的分区外，查询的时候必须指定分区。目前mdrill的分区字段为thedate,格式为yyyyMMdd在顶层SQL的where条件中必须有如下三种分区设定的一种1. thedate=’yyyyMMdd’ 直接指定某一个分区2. thedate in (yyyyMMdd, yyyyMMdd, yyyyMMdd) 给出一系列日期3. thedate >= yyyyMMdd and thedate<= thedate 给出一个范围查询明细1. 通过mdrill可以查询top 1 ...

2015-05-27 15:16
浏览 707
评论(0)
分类:互联网

linux awk的使用详解（收藏）

博客分类：

JAVA
Linux知识

简介 awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。 awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。 awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言： AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语 ...

2014-09-03 16:04
浏览 680
评论(0)
分类:操作系统

OpenSessionInViewFilter详解（转）

博客分类：

J2EE
SSH技术

OpenSessionInViewFilter是Spring提供的一个针对Hibernate的一个支持类，其主要意思是在发起一个页面请求时打开Hibernate的Session，一直保持这个Session，直到这个请求结束，具体是通过一个Filter来实现的。由于Hibernate引入了Lazy Load特性，使得脱离Hibernate的Session周期的对象如果再想通过getter方法取到其关联对象的值，Hibernate会抛出一个LazyLoad的Exception。所以为了解决这个问题，Spring引入了这个Filter，使得Hibernate的Session的生命周期变长。首先分 ...

2013-07-08 14:25
浏览 1426
评论(0)
分类:企业架构

【转】web后台线程中获取spring容器内的bean

博客分类：

J2EE
SSH技术

有时候需要启动一个后台守护线程，做一些别的事情。这时候怎么获取spring里的Service、Dao、Action等对象？（注意自己new一个是不行的，因为脱离了spring的管理，其中IoC资源都没有被注入）。一个解决办法是，重新弄一个Spring： XmlBeanFactory factory = new XmlBeanFactory(new ClassPathResource( "applicationContext.xml")); // 从配置文件中获取对象 IService hello = (IService) factory.ge ...

2013-05-16 14:59
浏览 1870
评论(0)
分类:互联网

JSP中文乱码的产生原因及解决方案-转

博客分类：

J2EE
JAVA
SSH技术

JSP中文乱码的产生原因及解决方案在JSP的开发过程中，经常出现中文乱码的问题，可能一直困扰着大家，现在把JSP开发中遇到的中文乱码的问题及解决办法写出来供大家参考。首先需要了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，Java和JSP文件本身编译时产生的乱码问题和Java程序于其他媒介交互产生的乱码问题。首先Java（包括JSP）源文件中很可能包含有中文，而Java和JSP源文件的保存方式是基于字节流的，如果Java和JSP编译成class文件过程中，使用的编码 ...

2013-05-15 17:33
浏览 2357
评论(0)
分类:互联网

SAML介绍

博客分类：

系统架构
JAVA

工作了一段时间，接触到不少知识，好久没有进行总结了，总结总结哈。其中在系统中用到单点登录的需求，此单点登录有些特殊需求，多个系统之间不存在公共的用户信息，而是自己维护自己的用户集，通过认证中心认证ticket的方式实现系统之间的无缝认证。经过查资料，接触到saml（安全断言标记语言）可以实现此需求，做了一个saml与spring security结合使用的demo，下面先对saml进行简单介绍和回顾。一、背景知识： SAML即安全断言标记语言，英文全称是Security Assertion Markup Language。它是一个基于XML的标 ...

2013-03-25 21:03
浏览 4397
评论(3)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

(分享)数据库与数据仓库的区别

数据仓库数据模型之：极限存储--历史拉链表

map和reduce 个数的设定（Hive优化）经典

数据库的范式及反范式

Hive JOIN使用详解

(转)Dubbo与Zookeeper、SpringMVC整合和使用（负载均衡、容错）

AWK处理两个文件公共字段

maven+springMVC+mybatis+junit详细搭建过程(转)

hive大数据倾斜总结(转)

mdrill sql使用手册

linux awk的使用详解（收藏）

OpenSessionInViewFilter详解（转）

【转】web后台线程中获取spring容器内的bean

JSP中文乱码的产生原因及解决方案-转

SAML介绍

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>