学习大数据要掌握的 java 知识

学习第一阶段目标

目标

Flume + Hadoop(Java) + Hive + Sqoop 的离线分析系统

学习顺序

了解整体架构

  • 离线分析系统的整体架构
  • 每个部分数据传输流程
参考文章

Java 基本语法

  • 基本数据类型
  • 面向对象 资料
验收方式
  • 能看懂 Hadoop 文档自带的 WordCount 应用的代码。

Hadoop

  • HDFS 分布式文件系统
  • 配置单点,集群 熟练理解文档自带的 WordCount 应用。1.x中文2.x
  • 理解示例 WordCount 使用到的 Hadoop 接口。学会查看 Hadoop类库
验收方式
  • 把淘车猫的 access_log 上传到 Hadoop 的文件系统中。
  • 能使用 Hadoop 的文件系统常用命令。文件的创建,移动等等

Java 接口函数

  • 集合框架 资料
  • 处理各种字符串的对象函数 找一些小项目源码多练习
  • ArrayList, HashSet, Map 等数据结构
验收方式
  • 能看到 Hadoop 文档自带应用 WordCount 2.0 版本
  • 能使用集合框架写出学习资料里最后的 扑克 应用。

Hive

  • HiveSql 学习
验收方式
  • 可以通过文本数据创建 HiveSql 表,并可以做排序等操作
  • 能实现 这里 的例子

Sqoop

  • 具体学习的内容还没看
验收方式
  • 能把 Hive 数据导入进 Mysql。

Flume

  • Flume 配置
验收方式
  • 可以把 access.log 文件,导入进 Hadoop 文件系统。

综合 Demo,统计 Uv,Pv (1周)

  • 统计分析淘车猫的 access_log

学习第二阶段目标

to be continue …