|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark高级数据分析》3 A4 l/ [+ C& C0 x; ^4 ~- X# ~
java电子书推荐理由:Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析.本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。* \6 S& z( |' C4 o2 e3 h
% }- P4 G3 i3 j. p+ W
作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean Owen)[美] 威尔斯(JoshWills)
" x0 g1 C* z% h! B出版社:人民邮电出版社% t& J5 T, [& h! N; z" P9 h
出版时间:2015年11月
7 P& W9 E8 {2 U+ h0 e0 U" o) E
6 q w# i) t5 ?) g
2 `' j( N8 l( N
; ~7 h/ A( H5 y& J" Y7 d$ b5 V6 f
java电子书目录:
. \& ~ {; _5 z. E- T' l& J" i
6 G4 l) ~- _: t9 C; A( z第1 章 大数据分析
9 @) V/ b' B- t- o, a1.1 数据科学面临的挑战
0 H# ~1 E, S, ]1.2 认识Apache Spark - q& ]0 e0 A. H( s$ Y Q8 @
1.3 关于本书
6 j( I) U, [% o- v% x& b7 t/ x( I第2 章 用Scala 和Spark 进行数据分析 " V3 x+ O2 K! I2 c0 e+ t
2.1 数据科学家的Scala / `! j5 i1 q$ D' u5 u% R+ ]* @
2.2 Spark 编程模型
2 L: [- V* t) f$ y# o2.3 记录关联问题
2 v1 i4 t+ a3 S4 N% C8 f O2.4 小试牛刀:Spark shell 和SparkContext ; _% }% ]2 V( L
2.5 把数据从集群上获取到客户端
% M9 b- p; R |9 u2.6 把代码从客户端发送到集群 0 ]) t U. o* E1 F! d; A
2.7 用元组和case class 对数据进行结构化 9 `' }& [) h+ E) g5 s m' z
2.8 聚合
4 a7 L% C* i! d& h& n; M/ W2.9 创建直方图
2 I: d' W: {7 R7 u q2.10 连续变量的概要统计
# X; n, p# X) G q+ r2.11 为计算概要信息创建可重用的代码
; i. |" I% X" K2.12 变量的选择和评分简介 $ X I* _! O l4 n) N0 _
2.13 小结 . v0 U7 t+ Q$ n! `; v! a4 V
第3 章 音乐推荐和Audioscrobbler 数据集
! o" g5 ^4 v% J( k+ F8 t n3.1 数据集 6 ~: x! _& ^$ x( `2 J% ]7 T$ |
3.2 交替*小二乘推荐算法
3 b( w7 n Y! {' _3.3 准备数据
) V' I4 }, Q! U U3.4 构建**个模型 1 M1 j K% E6 T" M' `
3.5 逐个检查推荐结果
7 e+ F0 {, r A: R& K7 w# w3.6 评价推荐质量 0 P3 P( f" F. S9 ^' H( n9 ~# v* {: X
3.7 计算AUC 5 Y* P7 i/ X3 w5 h3 j# w
3.8 选择超参数
* v2 I& G ]- p. h. f3.9 产生推荐
, Y! f4 S- S! Q! v3 g3.10 小结 8 h; T# z0 o. ~
第4 章 用决策树算法预测森林植被
' K, z: O1 K8 G) D' S8 V$ c4.1 回归简介
$ T8 e7 A: x( e `( O; Q2 a4.2 向量和特征 0 D3 e/ z$ Z) Q& H/ R4 v
4.3 样本训练 6 b& P# @) v6 g% K& c
4.4 决策树和决策森林 8 S! `7 Y4 T* S' C+ \" I
4.5 Covtype 数据集 0 |$ n, `( x0 s1 ^3 ~! ~$ o& F6 t
4.6 准备数据
2 i1 M/ Q# f' J! O- V; [" ]! y4.7 **棵决策树
6 v) P) X4 u# _+ E4.8 决策树的超参数
) U: x" _) z. Z9 e4 J! f. i; k4.9 决策树调优
) i/ {1 e8 l) J3 G O1 x4.10 重谈类别型特征
! Y& _1 i' ~8 L4.11 随机决策森林 . i6 n& O$ C9 k* {: v% E
4.12 进行预测 * j. X+ y4 x+ T! \1 F7 h
4.13 小结 + r7 x* z) l; e
第5 章 基于K 均值聚类的网络流量异常检测
7 L3 W# S/ v9 K9 `7 Z- J- M5.1 异常检测
( G- {3 D2 }: n, M, X2 P: @5.2 K 均值聚类
) k/ f# c+ H- J, N2 {7 {: ?/ b5.3 网络入侵
, z0 u) a( ]6 ?5.4 KDD Cup 1999 数据集 % m/ c# r9 N* c6 s" O
5.5 初步尝试聚类
0 [ f8 }; c [& l0 J5.6 K 的选择
" U( L" L h- y! e% `5.7 基于R 的可视化
/ X) ]2 Q( j5 G; f& h1 @5.8 特征的规范化 2 S7 |# F/ C% M% z$ z$ ?5 X* ]
5.9 类别型变量
T3 `/ v7 U# ~0 a, ^2 u0 C% w" V5.10 利用标号的熵信息
' \% |! @. T5 Y5.11 聚类实战 2 H0 G8 u0 U3 @3 K
5.12 小结 + }" G$ | X4 a+ ^3 B
第6 章 基于潜在语义分析算法分析维基百科
( t4 H2 r* m+ n5 U# D' J: K6.1 词项- 文档矩阵
- ?5 ?; W Y; C: G6 W2 ]6.2 获取数据 * u& D& D( w1 C+ i/ W2 J
6.3 分析和准备数据
7 {* D2 d- }0 w* L9 ]6 c2 }6.4 词形归并 1 z/ p( ~1 |- y
6.5 计算TF-IDF / c4 X) z& `% `; _2 B0 E5 k7 b! x& _
6.6 奇异值分解
( O! F2 {7 p0 D3 o- h# Z, J% J6.7 找出重要的概念 5 q" W( }2 v+ e1 w) Y) k% p! Y( W
6.8 基于低维近似的查询和评分 / i- V" l# V! o+ v* r, ?
6.9 词项- 词项相关度 0 D3 j; h# V/ f+ l- c" d
6.10 文档- 文档相关度
: B3 H- C7 w! z5 G6.11 词项- 文档相关度
( _4 j' A; E3 K# ~: P6.12 多词项查询 0 ]* O! T" b1 V% q9 \% e8 E% m
6.13 小结
% ~9 x [' ` g4 B* s& I: e# f8 I$ s第7 章 用GraphX 分析伴生网络 , k* H. ~+ c0 ]" _0 {! E
7.1 对MEDLINE 文献引用索引的网络分析
$ G% P) Z6 X: \ S j7.2 获取数据 + B" Z2 b1 Z9 T3 ^- S
7.3 用Scala XML 工具解析XML 文档 . p2 G' l7 S- t' I1 k( V% i
7.4 分析MeSH 主要主题及其伴生关系 ) L% j7 M* |" m: o: s" p6 }
7.5 用GraphX 来建立一个伴生网络
) K2 {0 ^' k. P- m, z( K/ H/ \7.6 理解网络结构 6 |) d) _* ~) S6 v2 o z2 ?. l$ j
7.6.1 连通组件 : ]" V" [5 M1 i! u5 T y, {1 K
7.6.2 度的分布 - l* S# Q& _! K2 k
7.7 过滤噪声边
7 N6 f; O! _" d! S* s5 K' Y+ E7.7.1 处理EdgeTriplet 1 w7 h3 j8 [7 B& b. e# a" b5 E* d& J
7.7.2 分析去掉噪声边的子图
* I6 M+ s( j2 _- p7.8 小世界网络 3 A3 R6 j4 [6 W z
7.8.1 系和聚类系数
) F% \/ h4 q" H$ _; Z7.8.2 用Pregel 计算平均路径长度 ! V7 ]5 u: T. R* O `6 v
7.9 小结
* _) q4 I$ `- ^7 c+ v1 @( {. o! r第8 章 纽约出租车轨迹的空间和时间数据分析 5 j* T+ W1 J8 u) [! K3 Y* [
8.1 数据的获取
" G6 e q& ^) [& T; u$ d8.2 基于Spark 的时间和空间数据分析 ; w7 [" p: E: O! n; A) _
8.3 基于JodaTime 和NScalaTime 的时间数据处理 4 h! S* F' Y" L- u' H
8.4 基于Esri Geometry API 和Spray 的地理空间数据处理 x, X( t+ N6 u; d, L ]2 B$ o
8.4.1 认识Esri Geometry API 3 \$ N7 F& S" f% ^
8.4.2 GeoJSON 简介
0 d& z* u9 [% @8.5 纽约市出租车客运数据的预处理 3 D# x% e7 M; J
8.5.1 大规模数据中的非法记录处理
% L" i+ W" E2 Y0 ~' T3 `8.5.2 地理空间分析
" T1 }$ u U& D$ t9 K# W2 x8.6 基于Spark 的会话分析
5 R' d0 G6 F$ @; [: G4 G3 b3 ^% [; F8.7 小结 1 ?- n. y* |7 y
第9 章 基于蒙特卡罗模拟的金融风险评估 - R0 ` I' c: f/ a* C
9.1 术语
! S! H! ~1 q' ^+ t7 L9.2 VaR 计算方法
g" {4 U. o* G' f: E9.2.1 方差- 协方差法
6 Z; y) T" }6 t7 s2 |3 \9.2.2 历史模拟法
7 D. V/ {: s; _- u& p9.2.3 蒙特卡罗模拟法 8 P& [4 `- T# m! l1 M7 ~( x9 q
9.3 我们的模型
" W5 o* r$ |" O9.4 获取数据
; r2 a/ p; G! \( L1 R9.5 数据预处理 / N* q/ i4 d! Y4 P" l" I, A
9.6 确定市场因素的权重 - x" Q9 C( t) H- h7 f% S* ~" f3 L" W+ Q
9.7 采样
5 b, S5 V: z' d3 W f9.8 运行试验
, m( k# g& ?! r6 y9.9 回报分布的可视化 0 j+ q2 m( x9 L
9.10 结果的评估 7 c/ g5 b! J) P9 X) E% m( _
9.11 小结
6 Z' f: }. ~ u2 a# B, ?3 k2 T# {4 y第10 章 基因数据分析和BDG 项目
6 ]5 [& l8 G4 B( H* n1 X# a) k10.1 分离存储与模型 - U# E7 P/ N! m2 N6 f/ I6 S9 a
10.2 用ADAM CLI 导入基因学数据
* Z1 Z8 `3 o* C$ h2 S10.3 从ENCODE 数据预测转录因子结合位点 - S C: ?2 ^* }8 Q
10.4 查询1000 Genomes 项目中的基因型 * {: C) w) r- J& ?0 U
10.5 小结 $ e/ O* L3 H' N) |$ e1 a4 f
第11 章 基于PySpark 和Thunder 的神经图像数据分析
: B4 H% @ k1 H* B! ^11.1 PySpark 简介 6 e) w; I8 V# R4 K& ~6 t
11.2 Thunder 工具包概况和安装 , A! j! H" B4 s7 f
11.3 用Thunder 加载数据 0 ~, |6 }# M$ T- i
11.4 用Thunder 对神经元进行分类 . g, F% ?1 c& S5 t# J! J1 X: W* ]
11.5 小结 ; m1 N- X$ T1 B) C" B
- j# [ w m8 @ _# h& a3 I& V E- Y* O k* P+ N: Q2 R
百度网盘下载地址链接(百度云):java自学网(javazx.com)Spark高级数据分析 PDF 高清 电子书 百度云.rar【密码回帖可见】
; J; a! p0 v) P0 R8 {4 C7 ~5 `5 Z; Z
* C: i5 A* @+ C2 ^* ]) M
0 q- F" A) i7 j- w( [
|
|