TA的每日心情 | 开心 2018-4-8 22:14 |
---|
签到天数: 1 天 [LV.1]初学乍练
普通会员
- 积分
- 5517
|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark大数据分析技术与实战》- k& H% x/ v4 N; a
java电子书推荐理由:本书适合: 大数据技术初学者阅读; 作为高等院校计算机相关专业的研究生学习参考资料; 所有愿意对大数据技术有所了解并想要将大数据技术应用于本职工作的读者阅读。
6 E& \# B: W' M0 [ ~" ]: R+ w
# C+ J2 V' Y; o5 E( \9 T作者:经管之家4 `$ Y+ `* M s
出版社:电子工业出版社
3 o: o& ?% I+ w2 ?9 l. K5 W( u出版时间:2017-07-01
. n) b4 {: J! t- t; H% N书籍价格:56.10元2 Q6 Q/ O+ G, z8 Q- M/ \- d' J3 Y
) O' G( t! s" d4 Y0 N2 X' Q
9 ?2 E: m2 J8 m N" x4 M
# V& c. R$ o9 x6 k- V- l
/ `9 `$ N3 D3 p* N: W4 ~java电子书目录:
3 W; j5 b8 W8 X第1章 Spark导论 18 m' ^8 o7 S1 ?
1.1 Spark的发展 2
# g, t2 h; D* L: _1 q5 z& D& D( ~8 u1.2 什么是Spark 3* D& p5 P# g; a0 j
1.3 Spark主要特征 3
+ E. r- _$ A/ D1 B1.3.1 快速 3) {. C3 k1 c- d! N4 j9 w
1.3.2 简洁易用 5
) D+ k+ j1 w( ~+ {1.3.3 通用 6* L* [. y9 v* |9 s" a& ?" m$ w
1.3.4 多种运行模式 8' |( H8 Y# v: x& }
第2章 Spark集群部署 9
2 a& X. `7 |2 k8 V3 A4 u/ ?4 o2.1 运行环境说明 9
1 w& i8 n1 q$ A4 _8 v% V/ W7 E2.1.1 软硬件环境 9; F5 j: e- G- R
2.1.2 集群网络环境 10% d4 ?, U" B& S3 `
2.2 安装VMware Workstation 11 10
1 u! h5 Q, R) L. F2.3 安装CentOS 6 16( Y0 e3 d$ E' t5 D. e9 w, B& ~
2.4 安装Hadoop 214 V$ I% Q9 S, z6 l4 [2 ^
2.4.1 克隆并启动虚拟机 21% ?9 S6 n1 j4 y% Q" U
2.4.2 网络基本配置 24
4 A7 a+ _! J, j! U% ]! p/ Q2 ?2.4.3 安装JDK 27
- y6 Q& v+ b2 w$ g9 X$ P2.4.4 免密钥登录配置 28
% d" R8 j5 S3 @% Q7 _2.4.5 Hadoop配置 29* O0 g9 {, R% M' t' V: I
2.4.6 配置从节点 33- U. g$ g7 D+ O+ D) B
2.4.7 配置系统文件 33! l% q( n- |9 x8 S; ]& C u; r
2.4.8 启动Hadoop集群 33. V3 r- x9 ?; t4 g& K1 F
2.5 安装Scala 354 j3 _+ U$ | O# f$ P* H' ]
2.6 安装Spark 367 Q2 j2 g( n q. W) g4 }
2.6.1 下载并解压Spark安装包 36
$ h% {9 ^3 i) M$ ]5 R' N' f2.6.2 配置Spark-env.sh 373 a5 R3 t' X$ y; U+ h" D% x
2.6.3 配置Spark-defaults.conf 37$ E' }( f4 l. y: } ]
2.6.4 配置Slaves 387 ?6 R- w! s/ T- L9 [2 L! o8 f
2.6.5 配置环境变量 38
% Q L; t! V, P( ^" t2.6.6 发送至Slave1、Slave2 39) n8 h! M; F* o
2.7 启动Spark 39* _3 g& z8 k+ ?, I3 G- G
第3章 RDD编程 42/ y! V" `# S2 ~7 w- m- h
3.1 RDD定义 42( E2 F, W4 F% x: [% \: `! I0 ^( w
3.2 RDD的特性 436 A$ M0 E* K& Y% T# u
3.2.1 分区 43
7 L8 b5 M* x" E: v3 L3.2.2 依赖 448 j, E- r: Q9 K. e7 ]8 i
3.2.3 计算 45' {1 e9 E( M1 a7 }8 c5 q
3.2.4 分区函数 45+ J n) e# w: b3 X# i5 N; |
3.2.5 优先位置 46( O" s1 R1 G% X4 ]
3.3 创建操作 46
* f0 Q8 \1 u$ [# P9 c7 Z3.3.1 基于集合的创建操作 47
1 A0 c9 \) x) u' g0 E H* M! d. H3.3.2 基于外部存储的创建操作 47 V. E% x$ y! T0 g0 S
3.4 常见执行操作 49; P* ^3 A& m+ x: }$ ?6 f
3.5 常见转换操作 492 Y; j1 u4 l, z9 C1 e4 r
3.5.1 一元转换操作 50
: r. U0 N v6 b" d8 W: z3.5.2 二元转换操作 53; y7 t" ]4 k; E0 k/ E* m" R# V
3.6 持久化操作 56
, J+ J% p' n$ }2 f2 e3.7 存储操作 58
0 n2 Y# P1 e J1 ]& m第4章 Spark调度管理与应用程序开发 59 g' r: W+ k! I
4.1 Spark调度管理基本概念 594 q; {% C& d U+ Y$ S
4.2 作业调度流程 604 Y9 o' ^ r+ E3 ]# {
4.2.1 作业的生成与提交 61+ F$ F) A, b5 p; i7 ?5 s# i
4.2.2 阶段的划分 62
: c0 @* p# T: G' F* |. W4.2.3 调度阶段的提交 62: n X% _# ~) T& f- H' H) ]4 O
4.2.4 任务的提交与执行 62
2 w- d5 ]5 j4 Y: b& L4.3 基于IntelliJ IDEA构建Spark应用程序 64
! b: [9 R7 C. G3 Q4.3.1 安装IntelliJ IDEA 64
4 b$ [' c4 {1 @4.3.2 创建Spark应用程序 70, Y# m* b9 ~ I2 ~. O1 ~" p2 p
4.3.3 集群模式运行Spark应用程序 81
( z& v& u2 w2 f& }" T' F/ W8 n# T第5章 GraphX 87
& t- e, ?( h0 a9 [, L) c+ q5.1 GraphX概述 87
$ e* r1 c# @* ^9 K6 `/ d5.2 GraphX基本原理 89
# q9 }. ^) y) w5.2.1 图计算模型处理流程 89
. A9 D( R( v) e: g) a4 V5.2.2 GraphX定义 903 `- T Q* V9 ^: q; p, P; m" Z, E0 G
5.2.3 GraphX的特点 902 b8 {& L, l! h% z6 |( o; U
5.3 GraphX设计与实现 91
# n# {$ f7 Z3 N5.3.1 弹性分布式属性图 91
; L! w0 G: I2 T/ r3 x5.3.2 图的数据模型 92
1 p2 Y9 K3 Y$ j1 G( ~5.3.3 图的存储模型 94- r. w* `9 m5 a, d% w- n/ S
5.3.4 GraphX模型框架 97( |0 N: a; w' E* ~3 c
5.4 GraphX操作 97
, [8 [3 k& f) C5 n5.4.1 创建图 97
0 o2 o5 |' U) A6 ]! ]5.4.2 基本属性操作 100, a, `1 V+ {; n# R9 u8 u
5.4.3 结构操作 102
0 u( P7 N. J4 E1 t _% q- h; u5.4.4 转换操作 103
/ @0 U7 V* O4 R5.4.5 连接操作 105+ v! A1 m- @' Q& d( s
5.4.6 聚合操作 106
, v6 M1 }# f Z, V+ T9 r. N: q, m5.5 GraphX案例解析 107
* G; m6 h1 g( k, t7 v. J: D5.5.1 PageRank算法与案例解析 1077 j5 I2 V' ~0 D& |
5.5.2 Triangle Count算法与案例解析 1104 j7 V% [# a' g4 p
第6章 Spark SQL 1139 n7 F& l2 p7 D5 a
6.1 Spark SQL概述 113) K2 m6 s* e8 m) l: g% j
6.2 Spark SQL逻辑架构 116
% A. c1 A5 e o, \$ s2 H6.2.1 SQL执行流程 1163 u7 H) i1 _ W" h& |
6.2.2 Catalyst 117
8 N, W: [& V5 p/ }' d" ~1 e6.3 Spark SQL CLI 117# k0 d0 w s% w$ `) k' t2 c
6.3.1 硬软件环境 1172 Q' y! M0 S+ p$ h, I q8 d; E. n
6.3.2 集群环境 1187 X! C2 `' b' ?2 ~9 T5 f( a& C) f" l8 f
6.3.3 结合Hive 118/ t1 z5 v$ Z" v7 _& a+ g7 p& M
6.3.4 启动Hive 118
K$ W- A% Z' g) |9 S! A7 _4 G6.4 DataFrame编程模型 1198 O: I; f9 H8 I Q. y
6.4.1 DataFrame简介 1192 {' m- I# H7 l: L
6.4.2 创建DataFrames 1205 l, G4 D. {/ ]
6.4.3 保存DataFrames 126/ e: C$ d) x7 Q$ j$ P
6.5 DataFrame常见操作 127
/ |. w0 h4 K) R, v. Z6.5.1 数据展示 127
6 T9 y) k& Z S6 K6.5.2 常用列操作 128
) I2 L- x& o" _. v6.5.3 过滤 1315 Z8 U6 |8 Y/ q8 V' t
6.5.4 排序 132
; ?+ i0 N$ Q: x6.5.5 其他常见操作 1349 T/ z) x& r. i6 G4 V
6.6 基于Hive的学生信息管理系统的SQL查询案例与解析 137
3 {# G7 K; `9 N8 f; ]6.6.1 Spark SQL整合Hive 137
+ G% o/ u3 F8 z2 u, ]6.6.2 构建数据仓库 1384 j, Q" |) o+ l/ m- I) n' ~
6.6.3 加载数据 141( G" I/ h, d+ E# r0 ?9 u
6.6.4 查询数据 142' z. r- u1 d, W0 t
第7章 Spark Streaming 146
! t( x5 D0 t8 p# E7.1 Spark Streaming概述 146
3 @2 Z7 m* ^- T9 u4 v7.2 Spark Streaming基础概念 147) K8 Y% C- F5 Q) X7 s1 ^8 F
7.2.1 批处理时间间隔 147
# E4 x3 t% V& A7.2.2 窗口时间间隔 148
! x& w) X9 B1 d: M5 @, R8 G. Q6 @7.2.3 滑动时间间隔 148' X! a6 ~ O. K/ h: t8 ~
7.3 DStream基本概念 149
( x+ N* e f' a* V+ P7.4 DStream的基本操作 150
8 ]0 F) {* P% q# {8 e8 ^# ^! C7.4.1 无状态转换操作 150* m% g$ S/ \, L" [2 B2 y
7.4.2 有状态转换操作 152* ]) b9 C1 G# m8 R E$ x; I) T
7.4.3 输出操作 153
9 w& ] e- `4 o7 L) l7.4.4 持久化操作 154* I5 ]/ Q8 L9 s0 _
7.5 数据源 154
: t5 |) H# p5 d1 F9 A3 F7.5.1 基础数据源 154
) G ?4 v& B; w+ [) @0 D7.5.2 高级数据源 155
3 X: K" ^. e+ L7.6 Spark Streaming编程模式与案例分析 156
! J" j0 h; d0 ^. j7.6.1 Spark Streaming编程模式 156
k$ C: L. Q6 `2 N, a7.6.2 文本文件数据处理案例(一) 157
4 g& t ]! j+ A9 U2 \ j; F! {7.6.3 文本文件数据处理案例(二) 160
$ t: K# F7 {# u* x4 b: A- \7.6.4 网络数据处理案例(一) 164
: h8 i; X4 ]' W8 M; M* y7.6.5 网络数据处理案例(二) 171' W& D: y& Y+ C9 B2 G1 E, B
7.6.6 stateful应用案例 175& S! z# c B4 y3 G, Y
7.6.7 window应用案例 180% S' g( p7 T) U3 g0 ^
7.7 性能考量 185
4 j2 P' I: f8 V9 x2 u7.7.1 运行时间优化 1850 d' T3 x# `0 I9 @6 s
7.7.2 内存使用与垃圾回收 186
- k. b6 d ~2 R4 m- m; M4 \第8章 Spark MLlib 187, a4 H: D0 B8 C4 |
8.1 Spark MLlib概述 1872 B0 ^. g/ o" k. v0 P
8.1.1 机器学习介绍 187; u' b8 K3 @5 ?* Q0 P) c* B
8.1.2 Spark MLlib简介 189
1 F+ g/ e3 D, T$ [: B( A8.2 MLlib向量与矩阵 190* Q: h% V' R4 {$ f
8.2.1 MLlib向量 190
3 F5 g. c, a9 m$ n) [) |8.2.2 MLlib矩阵 192; w- H* A6 v+ H
8.3 Spark MLlib分类算法 196+ d l0 H% U9 B2 F R
8.3.1 贝叶斯分类算法 1971 \6 W2 R/ u( B% {" W% ], [) E
8.3.2 支持向量机算法 201- @7 j7 o" G2 Z% L
8.3.3 决策树算法 204
+ _: O, g* m7 m8.4 MLlib线性回归算法 208$ h b/ P1 R! Z3 C
8.5 MLlib聚类算法 212
/ p% t* c4 l6 }( m- }8.6 MLlib协同过滤 215
5 h( d, A" k" {+ H" S6 w5 Z8 h$ s5 G. @, } W/ w
Java资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark大数据分析技术与实战 PDF 高清 电子书 百度云.rar【密码回帖可见】
' M1 n7 N6 c/ M; z' h" {7 q
# Z4 _8 V# i% I
6 h3 b" ?- b8 ~2 W' y$ |
+ p* r1 B; y ]: j: ^; D
% I. j8 g9 k9 U, ^( y* ]5 ?5 P" U |
|