学习第一阶段目标
目标
Flume + Hadoop(Java) + Hive + Sqoop 的离线分析系统
学习顺序
了解整体架构
- 离线分析系统的整体架构
- 每个部分数据传输流程
参考文章
- Flume+Spark+Hive+Spark SQL离线分析系统
- Flume+Kafka+Storm+Redis实时分析系统基本架构
- Flume+Hadoop+Hive的离线分析系统基本架
- 有赞统一日志平台初探
Java 基本语法
- 基本数据类型
- 面向对象 资料
验收方式
- 能看懂 Hadoop 文档自带的 WordCount 应用的代码。
Hadoop
验收方式
- 把淘车猫的 access_log 上传到 Hadoop 的文件系统中。
- 能使用 Hadoop 的文件系统常用命令。文件的创建,移动等等
Java 接口函数
- 集合框架 资料
- 处理各种字符串的对象函数 找一些小项目源码多练习
- ArrayList, HashSet, Map 等数据结构
验收方式
- 能看到 Hadoop 文档自带应用 WordCount 2.0 版本
- 能使用集合框架写出学习资料里最后的 扑克 应用。
Hive
- HiveSql 学习
验收方式
- 可以通过文本数据创建 HiveSql 表,并可以做排序等操作
- 能实现 这里 的例子
Sqoop
- 具体学习的内容还没看
验收方式
- 能把 Hive 数据导入进 Mysql。
Flume
- Flume 配置
验收方式
- 可以把 access.log 文件,导入进 Hadoop 文件系统。
综合 Demo,统计 Uv,Pv (1周)
- 统计分析淘车猫的 access_log