TA的每日心情 | 开心 2018-4-8 22:14 |
---|
签到天数: 1 天 [LV.1]初学乍练
普通会员
- 积分
- 5517
|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark机器学习:核心技术与实践》
; n" T/ s1 `% ?1 H sjava电子书推荐理由:作为一名具有机器学习和统计背景的开发人员,你是否感受到了当前缓慢的“小数据”机器学习工具的限制?那么本书就是为你而写!在本书中,你将会使用Spark创建可扩展的机器学习应用,为现代的数据驱动业务提供支持。 本书从MLlib和H2O库定义的机器学习原语开始,你将学到如何使用二分类检测由CERN粒子对撞机产生的大量数据中的希格斯波色子,并使用多元分类的集成方法对日常身体活动进行分类。接下来,你将解决一个涉及航班延误预测的典型回归问题,并编写复杂的Spark流水线。你将在doc2vec算法和K-means聚类的帮助下分析Twitter数据。后,你将会使用MLlib构建不同的模式挖掘模型,使用Spark和Spark SQL对DataFrame进行复杂的操作,并在Spark Streaming环境中部署你的应用。
+ B2 K1 K( M( ]. G) [# T
* j% _. f5 C* @: X* N作者:亚历克斯特列斯
4 i! ~3 y( H" P; o0 \: H7 m出版社:机械工业出版社, y! b7 l( e% D; J
出版时间:2018-06-05
8 A. c0 U, B; S' x2 h% _书籍价格:54.50元: r* w3 d0 ~% P) W, R8 k
0 w1 z/ Q5 I- B+ V3 ^
; a1 X8 R) t; m# m, o# o" O" }2 ]
" N+ T+ R* M5 b. Q, W
# w0 s0 {, [3 k' v+ d/ W6 S& A
java电子书目录:% g* Z5 \# c6 k
第1章 大规模机器学习和Spark入门 12 v7 n7 P5 B3 l2 ~, d/ b6 k
1.1 数据科学 2
* A1 @# }! S5 ?8 _; ]1.2 数据科学家:21世纪最炫酷的职业 2
+ A/ D: w, M* C* \) a. g1.2.1 数据科学家的一天 3
' `) E9 ]2 P& C y) ]1.2.2 大数据处理 4
6 ~' W% d, H' g1.2.3 分布式环境下的机器学习算法 4* L; m0 Q) b+ y: v. R
1.2.4 将数据拆分到多台机器 6
2 s G+ r6 j' L7 e3 ] ~1.2.5 从Hadoop MapReduce到Spark 69 n. ^/ C* l4 d( {
1.2.6 什么是Databricks 7) Y! O0 C+ F ~# B: `
1.2.7 Spark包含的内容 88 X3 J3 E( r* |& Z4 c
1.3 H2O.ai简介 8
1 s/ \- \8 `3 ?, z$ \( @! |1.4 H2O和Spark MLlib的区别 10
" W4 `# @; B$ A5 X- @: s( V5 p! q6 d1.5 数据整理 10
8 _/ G$ z& m6 H% D7 L1.6 数据科学:一个迭代过程 11& W( k H8 t* [& j( D
1.7 小结 11 V, ?" _5 g0 a K4 W' ?% j& f
第2章 探索暗物质:希格斯玻色子 12. G F, s. g7 h! g' }
2.1 Ⅰ型错误与Ⅱ型错误 12( X/ ^) j4 p& _6 v
2.1.1 寻找希格斯玻色子 13
) @% W; K& ]# G1 s4 G w2.1.2 LHC和数据的创建 13
- m& D P& z3 \; V+ X2.1.3 希格斯玻色子背后的理论 14
v$ t; `8 d' g4 |8 [) w: l2.1.4 测量希格斯玻色子 14# n1 X' ~5 h# s
2.1.5 数据集 147 K* m: O) U0 O( b# g
2.2 启动Spark与加载数据 15$ S% [0 h/ z9 X9 f% g& Y6 c O
2.2.1 标记点向量 226 b' O; L! y7 R, K* q/ |4 o
2.2.2 创建训练和测试集合 24
3 j) K- g U- F5 F# N6 d2.2.3 第一个模型:决策树 26
\" S# ]- B# t$ I& {2.2.4 下一个模型:集合树 32$ Q) g* `( w. X) u2 E e$ j) g1 l
2.2.5 最后一个模型:H2O深度学习 37
* a: K; ~' Y, E2.2.6 构建一个3层DNN 39
2 P, u( e; U( V0 q# _3 s- L2.3 小结 459 L- \- z* I6 W& W9 l
第3章 多元分类的集成方法 465 S* R3 ^4 h3 p( x0 u- _0 K N
3.1 数据 47/ w, U; R9 U) \0 ~( M
3.2 模型目标 48
& J* z/ u- ?* }2 E& n3.2.1 挑战 48& J- l' U8 }0 z/ x9 G6 L9 D t
3.2.2 机器学习工作流程 487 B- L x: a# z) O" d* v& a
3.2.3 使用随机森林建模 61. r8 |( F& V* K1 g
3.3 小结 78) x& T/ m/ L* I+ n; J: K5 T- \8 O ^
第4章 使用NLP和Spark Streaming预测电影评论 80
: K. s* c% X' s' r( {( J4.1 NLP简介 81+ E- B9 m) e" B ~: ^+ W
4.2 数据集 82
) k* s# N8 E$ ^9 q4.3 特征提取 856 i: W! ]! e/ ?0 W, h: U- m
4.3.1 特征提取方法:词袋模型 859 D/ w ~- A! W
4.3.2 文本标记 86
7 F8 W& D; \1 r( F4.4 特征化——特征哈希 89: { e+ G3 ]3 \# Z8 N
4.5 我们来做一些模型训练吧 92+ W7 G- W+ Y9 W6 r$ V
4.5.1 Spark决策树模型 93
" t& D: b9 j% C4.5.2 Spark朴素贝叶斯模型 94! x( \4 i0 \1 t( K
4.5.3 Spark随机森林模型 95
3 W# j2 F4 y" R2 @' i" f3 \5 Y4.5.4 Spark GBM模型 965 X: f7 m* L; W, l9 f% I2 Z. W
4.5.5 超级学习器模型 97/ R. ~- l1 u2 m) `
4.6 超级学习器 97
: [$ D# ]0 z% n& j: _8 `4.6.1 集合所有的转换 101
! t' ^, `! }- P4.6.2 使用超级学习器模型 105
: n _1 }1 S; p: g2 t; e2 z# G4.7 小结 105
3 s/ s1 N# f$ m, s' U# I' U第5章 word2vec预测和聚类 107
4 U- |; r, c! z6 P5.1 词向量的动机 108! V. j) E9 F2 G/ R# R9 e1 }% X
5.2 word2vec解释 108" m+ N5 U* L, b. U* Y
5.2.1 什么是单词向量 108
! n2 s3 E D9 k0 F! u4 r$ l& c5.2.2 CBOW模型 110/ X$ q6 O) C `2 ]% ^6 T
5.2.3 skip-gram模型 111" O3 E! x2 {) t" S2 R$ F
5.2.4 玩转词汇向量 112
# b" c" y6 r# _3 U% a5.2.5 余弦相似性 113
' f7 z1 ?# ]6 Q5.3 doc2vec解释 113% H5 e$ [8 R( X1 \6 F- D0 U
5.3.1 分布式内存模型 113
r F0 [. c. w" v% E8 u) Q4 |' d. {5.3.2 分布式词袋模型 1148 @ X5 ^; [6 [ a
5.4 应用word2vec并用向量探索数据 116) k6 {7 d3 ~& e3 s6 v( e: M% ?
5.5 创建文档向量 118' T* S, f3 {" g1 U# o
5.6 监督学习任务 119
" b# U5 H5 H, G: o5.7 小结 123" s3 }5 J" Q( ^! i' l0 N
第6章 从点击流数据中抽取模式 125; W0 W& A3 W Q
6.1 频繁模式挖掘 1266 a8 z9 H t& D1 Q- N2 g1 I! S
6.2 使用Spark MLlib进行模式挖掘 130, P1 ^& g5 d l' H, Y& m, O$ S- U
6.2.1 使用FP-growth进行频繁模式挖掘 131
8 L) R( e8 o* w& ?# i, c6.2.2 关联规则挖掘 136
( J% T$ |1 Y+ u* p, {6.2.3 使用prefix span进行序列模式挖掘 138
; T& y- [$ w5 K; c6.2.4 在MSNBC点击流数据上进行模式挖掘 141
" h) E. g3 k J1 q2 F' h% U& l6.3 部署模式挖掘应用 147) i1 j7 R. h' O: P
6.4 小结 154
# E. B4 R2 Q) L1 ^$ [5 p第7章 使用GraphX进行图分析 155
7 N4 a! M4 Q3 @, d* V7.1 基本的图理论 156
4 R% W% N( e: Q+ v, t0 t, f$ j7.1.1 图 156
0 k+ V3 K5 d" F7.1.2 有向和无向图 1561 q- ?! Z. z) M+ K; g
7.1.3 阶和度 157
# g6 ]0 z1 z$ S7.1.4 有向无环图 158% m, k* k+ m4 m! H% q
7.1.5 连通分量 1599 L4 u2 v5 F9 l) K& b" r
7.1.6 树 160+ O( p3 _& C, i$ E) Q! R R' E
7.1.7 多重图 160
0 ?( G* U- B( e% j1 ~7.1.8 属性图 161+ C% D" {6 ?% {& D$ _
7.2 GraphX分布式图计算引擎 162- a Z/ N! ~+ p& G( \# O
7.2.1 GraphX中图的表示 163
# p1 ~. z* N- V) }1 I. M7.2.2 图的特性和操作 165! A/ v9 ~& x$ [/ n
7.2.3 构建和加载图 170
+ E0 o4 ^$ C2 J# M2 V7.2.4 使用Gephi可视化图结构 172
( i$ l2 v) U4 x& z7.2.5 图计算进阶 178
/ k f$ `1 C# ^7.2.6 GraphFrame 181
& R) a- r( E/ r5 X( F( k1 p7.3 图算法及其应用 183
# v' [9 l3 u( }* g9 g$ k! ~1 M7.3.1 聚类 1832 Q$ O% E1 Z- ]1 Y: E$ X' F
7.3.2 顶点重要性 185
# h) Y6 }' V% k( |; ]7.4 GraphX在上下文中 188* q' S. s, M+ I/ e% Q8 S. t
7.5 小结 189
# z* m. B" ^ K9 d# ^/ {. r8 c6 @ L第8章 Lending Club借贷预测 190
4 H2 ]. v' i9 R0 g6 `0 U/ `2 L8.1 动机 190
: v% b. k5 V- S/ Y- J: \% S7 t8.1.1 目标 191
: n& m9 }8 Z- O8.1.2 数据 192
% y1 `) @0 e6 S# U" g% H8.1.3 数据字典 1929 n8 E9 I# o+ j6 G; H" n
8.2 环境准备 193' B* `) H0 L( C2 B
8.3 数据加载 193
8 r5 L2 R" l1 }% A3 K8.4 探索——数据分析 194
; |7 K! B0 q! a0 T8.4.1 基本清理 194
9 N" w: ~4 f/ L; R( x& R3 n8.4.2 预测目标 200
A. J# ^3 |5 m5 _8.4.3 使用模型评分 2213 g; |% g2 j" A [ p& m
8.4.4 模型部署 224, z1 J6 O+ V) k
8.5 小结 2291 e3 `, l. b' L: s4 y0 e; z
0 @. w( J2 T- K5 X0 r. h
Java资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark机器学习:核心技术与实践 PDF 高清 电子书 百度云.rar【密码回帖可见】# j; F @; Z) Y- V/ B2 G. _# ?
2 g9 H: x4 N" ~' Q- ?" k$ J- H) H: ~* Y% P! z
K$ O) W; D7 h% w
8 k- q% S) N! o7 q# p |
|