TA的每日心情 | 开心 2018-4-8 22:14 |
---|
签到天数: 1 天 [LV.1]初学乍练
普通会员
- 积分
- 5517
|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《 Spark机器学习:核心技术与实践》+ f4 u; E% \7 [+ Y4 P8 ?) H! u
java电子书推荐理由:作为一名具有机器学习和统计背景的开发人员,你是否感受到了当前缓慢的“小数据”机器学习工具的限制?那么本书就是为你而写!在本书中,你将会使用Spark创建可扩展的机器学习应用,为现代的数据驱动业务提供支持。 本书从MLlib和H2O库定义的机器学习原语开始,你将学到如何使用二分类检测由CERN粒子对撞机产生的大量数据中的希格斯波色子,并使用多元分类的集成方法对日常身体活动进行分类。接下来,你将解决一个涉及航班延误预测的典型回归问题,并编写复杂的Spark流水线。你将在doc2vec算法和K-means聚类的帮助下分析Twitter数据。后,你将会使用MLlib构建不同的模式挖掘模型,使用Spark和Spark SQL对DataFrame进行复杂的操作,并在Spark Streaming环境中部署你的应用。0 X, S) _* Z9 j2 F
K- s m' | j! P8 G* k
作者:亚历克斯特列斯
% C' Z. o! O* R出版社:机械工业出版社
, V* x' D3 T3 P出版时间:2018-06-05
0 v3 W& p3 Q$ k- X3 r1 I% u6 ~3 F书籍价格:54.50元( m3 o& W% c8 ^! _6 ^/ T
2 Q& e3 D9 k% }; N3 f0 L' [
9 R8 r6 i( J6 _/ D/ ~ d
+ l6 n" E1 a' T1 w" ?) A8 D
3 h- F0 u( V1 }9 r8 t: \java电子书目录:
1 \8 [0 n7 v( C& M: b7 r9 w第1章 大规模机器学习和Spark入门 1
) D K$ g. j6 f; B1.1 数据科学 2
0 D+ T) W% D4 R$ x$ u {! D3 p" \3 X1.2 数据科学家:21世纪最炫酷的职业 2 U" ~6 O: T% ~$ ]8 ]# w
1.2.1 数据科学家的一天 3$ s2 M' {+ u* l7 \& o- V
1.2.2 大数据处理 4
0 h, v4 M% _5 y# \$ ~' |+ @1.2.3 分布式环境下的机器学习算法 4' X) U' F: w9 T+ E- j
1.2.4 将数据拆分到多台机器 67 m( |: O+ b6 }( ?; e: \" O- B
1.2.5 从Hadoop MapReduce到Spark 62 d. z1 e) x% m0 x8 d* c% d! u
1.2.6 什么是Databricks 7
4 N% \' C4 |" ~; V" s5 M1.2.7 Spark包含的内容 8+ q7 S% y# Z' {: g
1.3 H2O.ai简介 8# x; [$ y! s% M5 `0 n
1.4 H2O和Spark MLlib的区别 10
! k t$ W! `$ v1.5 数据整理 10
/ O7 D6 q0 E. h9 J8 C! f; ]1.6 数据科学:一个迭代过程 11' ]3 A( g; t/ A& q. X6 b
1.7 小结 11
* `3 S; v9 {2 q. n) }$ L3 W第2章 探索暗物质:希格斯玻色子 123 ? g0 U& x# Z" v g
2.1 Ⅰ型错误与Ⅱ型错误 12
2 ] g' _1 i/ ?5 b2.1.1 寻找希格斯玻色子 13- N7 }# `0 `0 `2 U8 I2 ~4 r
2.1.2 LHC和数据的创建 13 B A5 f! T2 T/ {0 Z: m( I( [
2.1.3 希格斯玻色子背后的理论 14
8 }+ g+ [) C. `$ q2.1.4 测量希格斯玻色子 14. v+ \% V" e! D/ x3 W; q1 m
2.1.5 数据集 14% W, {8 u u+ ~* d) D2 y
2.2 启动Spark与加载数据 15
. M. j2 Y+ ?: e: ^; r6 C2.2.1 标记点向量 227 N: V8 g# `$ H' l+ ]
2.2.2 创建训练和测试集合 244 u+ x d- c) S, w, A% g) m8 h* B1 v
2.2.3 第一个模型:决策树 26& W- b7 E6 Z& p% c% [+ C* |! ?
2.2.4 下一个模型:集合树 32* w6 M7 P; j% h8 W- u- G
2.2.5 最后一个模型:H2O深度学习 37' K# l0 _9 L ~# l
2.2.6 构建一个3层DNN 391 Q" a$ T. S- l9 F
2.3 小结 45
6 H) B- p: y# \& i: u, T3 f第3章 多元分类的集成方法 46
3 y4 ^$ X" f3 S! e9 @3.1 数据 47
- X- R+ D1 c# ], C1 E3.2 模型目标 48
4 a/ S- t1 L _- W3.2.1 挑战 48
+ I' ]" V, V9 g) P3.2.2 机器学习工作流程 48
# [" P" c$ L. t2 l$ c3.2.3 使用随机森林建模 61- c( a8 u9 [% W6 y
3.3 小结 78
+ M4 i- v5 B- J, R' P' g- x第4章 使用NLP和Spark Streaming预测电影评论 80
3 X3 p7 F+ r$ J4.1 NLP简介 81$ U# ~8 V |! {7 C2 @' s+ W
4.2 数据集 82
! e ? L5 e5 ]) @1 z* c1 h, q4.3 特征提取 85
' H* m2 M! ?/ L+ c6 m6 o4.3.1 特征提取方法:词袋模型 85$ V, y/ n, I/ ]8 ]% K& e
4.3.2 文本标记 86
5 o" U2 S% d. M; x% T4 A O0 S4.4 特征化——特征哈希 89( a* J( [0 ?4 D! \/ B2 K8 G2 F
4.5 我们来做一些模型训练吧 92
+ A$ N( V$ u, _, B9 c0 d. j$ D4.5.1 Spark决策树模型 935 p0 \2 D% E9 J
4.5.2 Spark朴素贝叶斯模型 94; b6 s$ S) y* q' N
4.5.3 Spark随机森林模型 95
1 q! ]! d$ A5 t) a/ }& G4.5.4 Spark GBM模型 96
( e: G$ j8 Z7 a J1 O: g4.5.5 超级学习器模型 97
9 Z7 o8 P0 D4 ^; J2 k/ S# n4.6 超级学习器 97/ A9 q1 w% G6 V1 R9 H* i
4.6.1 集合所有的转换 101
& l! }/ Y1 X* Z4.6.2 使用超级学习器模型 105) i8 M/ m- }9 q. m# t3 H
4.7 小结 105
' \# k { i0 \第5章 word2vec预测和聚类 107
9 |$ _( m; S$ x# O5.1 词向量的动机 108
1 ?) d( U, G- N9 n+ T5 l; n5.2 word2vec解释 108. R' h+ ^ U4 o
5.2.1 什么是单词向量 108
5 w4 H' H! \' Q) f5.2.2 CBOW模型 110
t6 B0 o7 w! }3 O7 v5.2.3 skip-gram模型 111
& T" Z6 j' d- W1 }5.2.4 玩转词汇向量 1123 S9 d2 e/ }2 i
5.2.5 余弦相似性 113
. ]- ?2 g+ m( i) E# l5.3 doc2vec解释 113/ t* ~/ `9 @7 y+ t$ a
5.3.1 分布式内存模型 113
$ s. ~6 x- j' x0 R& o5.3.2 分布式词袋模型 114
* S) V! P2 M9 a5.4 应用word2vec并用向量探索数据 116
( Q% A( }0 c( d& D5.5 创建文档向量 1188 F5 K& l+ ~& g0 A5 _. a
5.6 监督学习任务 119
* P; N+ _1 t/ w5 _5 v u" w# g w5.7 小结 1232 v2 a( A: E4 s1 d
第6章 从点击流数据中抽取模式 125# w4 ^# U Z( B1 R1 Y" X
6.1 频繁模式挖掘 126/ t! v& A. b- Q! X2 D: B
6.2 使用Spark MLlib进行模式挖掘 130/ [# b% ^! O% x$ ?8 a, K
6.2.1 使用FP-growth进行频繁模式挖掘 1313 `+ U' {' h& s+ R+ I8 T1 z
6.2.2 关联规则挖掘 136
3 k: x$ n6 z8 n' ?! F6.2.3 使用prefix span进行序列模式挖掘 138, P& ?- j4 y; M! k- {
6.2.4 在MSNBC点击流数据上进行模式挖掘 141
1 Y- [! V0 [5 v: L5 I) N! G6.3 部署模式挖掘应用 147
4 O9 z% a- k) {' D. |: _. T6.4 小结 154
3 `% i$ h9 d$ |第7章 使用GraphX进行图分析 155
* Q/ g. S; P1 G4 J) K# y7.1 基本的图理论 156 W( c6 ?: I3 S- m
7.1.1 图 156( R1 [* I5 A( o+ j% _
7.1.2 有向和无向图 156
6 T) s# i9 k. g; @, J' \. k7.1.3 阶和度 157% J. T; k6 G$ v, o% Z8 K* Q. i' q
7.1.4 有向无环图 158& L5 C1 l% c3 Z( X
7.1.5 连通分量 159
n8 n! P2 G! y7.1.6 树 1608 }9 i4 n E) S: b" q" P
7.1.7 多重图 160
& F; \9 H% {8 X: `) k2 S* [7.1.8 属性图 161) c8 ?( G" v3 R- ^; S0 ^7 b b) a
7.2 GraphX分布式图计算引擎 162
+ U. h6 \7 |% P5 K7.2.1 GraphX中图的表示 163
2 S( \- k! X6 T: |: H7.2.2 图的特性和操作 165
8 I& t' Q" ^' ?; b; a4 z/ w7.2.3 构建和加载图 170! B5 Z! }: R* i6 ~8 d* t
7.2.4 使用Gephi可视化图结构 1727 s: V# g! Q2 F0 F
7.2.5 图计算进阶 178+ y# m' w7 L( A ?- {8 i
7.2.6 GraphFrame 181
. V* I& {3 Y: ^* F$ N8 A7.3 图算法及其应用 183! G9 I; c# |- x# j7 X" ^3 K1 S
7.3.1 聚类 1836 ?6 [0 }7 | Z2 S2 ^% C& o" _
7.3.2 顶点重要性 1855 b4 U$ O4 y' q% W, z
7.4 GraphX在上下文中 188
$ J& s' C. Y; Q) w9 w0 ~: g1 U1 U7.5 小结 189
4 Z2 Y( x( H5 [第8章 Lending Club借贷预测 190
; G, S6 B+ A7 i6 C8.1 动机 190/ q8 E' F* e" ?4 ? [; w
8.1.1 目标 191
/ n% f1 X% O9 v- s, Z7 G8.1.2 数据 192
* G7 v3 s- c* ^3 }7 @" m4 m) q6 N8.1.3 数据字典 192
; Z1 @6 c+ u6 z! I, ]' Z7 _1 G# o8.2 环境准备 193
' k7 ?: B3 t& y1 R) K5 X8.3 数据加载 1934 s; z/ C4 L! n a j4 p. }6 u! l- [
8.4 探索——数据分析 1942 ^: |7 Y8 |/ c8 F f' v- p# l! I
8.4.1 基本清理 1949 U- u$ a3 d! p1 ^$ g8 \
8.4.2 预测目标 2001 d ]; D7 k/ _0 M( y/ L) b
8.4.3 使用模型评分 221
! r# U, J2 ~9 V/ u8.4.4 模型部署 224
6 P& q8 L8 e3 j: R/ i! }8.5 小结 229% ~' A+ N/ c; C2 `0 Z+ a5 P3 e
. x7 j; }# L: ^+ K6 h1 a) ?
Java资料百度网盘下载地址链接(百度云):java自学网(javazx.com) Spark机器学习:核心技术与实践 PDF 高清 电子书 百度云.rar【密码回帖可见】
8 ?' d' d# A5 J$ `# }! ^& i1 h4 i7 F/ r% O) E9 ~- \
: g l% i/ ^6 _
* O, p# }/ b. g! U, d
/ ^3 l: n1 v6 J/ ]$ h1 U5 T |
|