java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 10158|回复: 51

【java电子书】Spark高级数据分析 PDF 电子书 百度云 百度网盘下载

  [复制链接]
  • TA的每日心情
    开心
    2021-5-25 00:00
  • 签到天数: 1917 天

    [LV.Master]出神入化

    2025

    主题

    3683

    帖子

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    66101

    宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2017-2-10 12:30:08 | 显示全部楼层 |阅读模式
    java自学网(www.javazx.com)-java论坛,java电子书推荐:《Spark高级数据分析》3 A4 l/ [+ C& C0 x; ^4 ~- X# ~
    java电子书推荐理由:Cloudera公司数据科学家团队携手打造,教你用Spark进行大规模数据分析.本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。* \6 S& z( |' C4 o2 e3 h
    % }- P4 G3 i3 j. p+ W
    作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean Owen)[美] 威尔斯(JoshWills)
    " x0 g1 C* z% h! B出版社:人民邮电出版社% t& J5 T, [& h! N; z" P9 h
    出版时间:2015年11月

    7 P& W9 E8 {2 U+ h0 e0 U" o) E

    6 q  w# i) t5 ?) g QQ截图20170210122600.jpg 2 `' j( N8 l( N
    ; ~7 h/ A( H5 y& J" Y7 d$ b5 V6 f
    java电子书目录:
    . \& ~  {; _5 z. E- T' l& J" i
    6 G4 l) ~- _: t9 C; A( z第1 章 大数据分析
    9 @) V/ b' B- t- o, a1.1 数据科学面临的挑战
    0 H# ~1 E, S, ]1.2 认识Apache Spark - q& ]0 e0 A. H( s$ Y  Q8 @
    1.3 关于本书
    6 j( I) U, [% o- v% x& b7 t/ x( I第2 章 用Scala 和Spark 进行数据分析 " V3 x+ O2 K! I2 c0 e+ t
    2.1 数据科学家的Scala / `! j5 i1 q$ D' u5 u% R+ ]* @
    2.2 Spark 编程模型
    2 L: [- V* t) f$ y# o2.3 记录关联问题
    2 v1 i4 t+ a3 S4 N% C8 f  O2.4 小试牛刀:Spark shell 和SparkContext ; _% }% ]2 V( L
    2.5 把数据从集群上获取到客户端
    % M9 b- p; R  |9 u2.6 把代码从客户端发送到集群 0 ]) t  U. o* E1 F! d; A
    2.7 用元组和case class 对数据进行结构化 9 `' }& [) h+ E) g5 s  m' z
    2.8 聚合
    4 a7 L% C* i! d& h& n; M/ W2.9 创建直方图
    2 I: d' W: {7 R7 u  q2.10 连续变量的概要统计
    # X; n, p# X) G  q+ r2.11 为计算概要信息创建可重用的代码
    ; i. |" I% X" K2.12 变量的选择和评分简介 $ X  I* _! O  l4 n) N0 _
    2.13 小结 . v0 U7 t+ Q$ n! `; v! a4 V
    第3 章 音乐推荐和Audioscrobbler 数据集
    ! o" g5 ^4 v% J( k+ F8 t  n3.1 数据集 6 ~: x! _& ^$ x( `2 J% ]7 T$ |
    3.2 交替*小二乘推荐算法
    3 b( w7 n  Y! {' _3.3 准备数据
    ) V' I4 }, Q! U  U3.4 构建**个模型 1 M1 j  K% E6 T" M' `
    3.5 逐个检查推荐结果
    7 e+ F0 {, r  A: R& K7 w# w3.6 评价推荐质量 0 P3 P( f" F. S9 ^' H( n9 ~# v* {: X
    3.7 计算AUC 5 Y* P7 i/ X3 w5 h3 j# w
    3.8 选择超参数
    * v2 I& G  ]- p. h. f3.9 产生推荐
    , Y! f4 S- S! Q! v3 g3.10 小结 8 h; T# z0 o. ~
    第4 章  用决策树算法预测森林植被
    ' K, z: O1 K8 G) D' S8 V$ c4.1 回归简介
    $ T8 e7 A: x( e  `( O; Q2 a4.2 向量和特征 0 D3 e/ z$ Z) Q& H/ R4 v
    4.3 样本训练 6 b& P# @) v6 g% K& c
    4.4 决策树和决策森林 8 S! `7 Y4 T* S' C+ \" I
    4.5 Covtype 数据集 0 |$ n, `( x0 s1 ^3 ~! ~$ o& F6 t
    4.6 准备数据
    2 i1 M/ Q# f' J! O- V; [" ]! y4.7 **棵决策树
    6 v) P) X4 u# _+ E4.8 决策树的超参数
    ) U: x" _) z. Z9 e4 J! f. i; k4.9 决策树调优
    ) i/ {1 e8 l) J3 G  O1 x4.10 重谈类别型特征
    ! Y& _1 i' ~8 L4.11 随机决策森林 . i6 n& O$ C9 k* {: v% E
    4.12 进行预测 * j. X+ y4 x+ T! \1 F7 h
    4.13 小结 + r7 x* z) l; e
    第5 章 基于K 均值聚类的网络流量异常检测
    7 L3 W# S/ v9 K9 `7 Z- J- M5.1 异常检测
    ( G- {3 D2 }: n, M, X2 P: @5.2 K 均值聚类
    ) k/ f# c+ H- J, N2 {7 {: ?/ b5.3 网络入侵
    , z0 u) a( ]6 ?5.4 KDD Cup 1999 数据集 % m/ c# r9 N* c6 s" O
    5.5 初步尝试聚类
    0 [  f8 }; c  [& l0 J5.6 K 的选择
    " U( L" L  h- y! e% `5.7 基于R 的可视化
    / X) ]2 Q( j5 G; f& h1 @5.8 特征的规范化 2 S7 |# F/ C% M% z$ z$ ?5 X* ]
    5.9 类别型变量
      T3 `/ v7 U# ~0 a, ^2 u0 C% w" V5.10 利用标号的熵信息
    ' \% |! @. T5 Y5.11 聚类实战 2 H0 G8 u0 U3 @3 K
    5.12 小结 + }" G$ |  X4 a+ ^3 B
    第6 章 基于潜在语义分析算法分析维基百科
    ( t4 H2 r* m+ n5 U# D' J: K6.1 词项- 文档矩阵
    - ?5 ?; W  Y; C: G6 W2 ]6.2 获取数据 * u& D& D( w1 C+ i/ W2 J
    6.3 分析和准备数据
    7 {* D2 d- }0 w* L9 ]6 c2 }6.4 词形归并 1 z/ p( ~1 |- y
    6.5 计算TF-IDF / c4 X) z& `% `; _2 B0 E5 k7 b! x& _
    6.6 奇异值分解
    ( O! F2 {7 p0 D3 o- h# Z, J% J6.7 找出重要的概念 5 q" W( }2 v+ e1 w) Y) k% p! Y( W
    6.8 基于低维近似的查询和评分 / i- V" l# V! o+ v* r, ?
    6.9 词项- 词项相关度 0 D3 j; h# V/ f+ l- c" d
    6.10 文档- 文档相关度
    : B3 H- C7 w! z5 G6.11 词项- 文档相关度
    ( _4 j' A; E3 K# ~: P6.12 多词项查询 0 ]* O! T" b1 V% q9 \% e8 E% m
    6.13 小结
    % ~9 x  [' `  g4 B* s& I: e# f8 I$ s第7 章 用GraphX 分析伴生网络 , k* H. ~+ c0 ]" _0 {! E
    7.1 对MEDLINE 文献引用索引的网络分析
    $ G% P) Z6 X: \  S  j7.2 获取数据 + B" Z2 b1 Z9 T3 ^- S
    7.3 用Scala XML 工具解析XML 文档 . p2 G' l7 S- t' I1 k( V% i
    7.4 分析MeSH 主要主题及其伴生关系 ) L% j7 M* |" m: o: s" p6 }
    7.5 用GraphX 来建立一个伴生网络
    ) K2 {0 ^' k. P- m, z( K/ H/ \7.6 理解网络结构 6 |) d) _* ~) S6 v2 o  z2 ?. l$ j
    7.6.1 连通组件 : ]" V" [5 M1 i! u5 T  y, {1 K
    7.6.2 度的分布 - l* S# Q& _! K2 k
    7.7 过滤噪声边
    7 N6 f; O! _" d! S* s5 K' Y+ E7.7.1 处理EdgeTriplet 1 w7 h3 j8 [7 B& b. e# a" b5 E* d& J
    7.7.2 分析去掉噪声边的子图
    * I6 M+ s( j2 _- p7.8 小世界网络 3 A3 R6 j4 [6 W  z
    7.8.1 系和聚类系数
    ) F% \/ h4 q" H$ _; Z7.8.2 用Pregel 计算平均路径长度 ! V7 ]5 u: T. R* O  `6 v
    7.9 小结
    * _) q4 I$ `- ^7 c+ v1 @( {. o! r第8 章 纽约出租车轨迹的空间和时间数据分析 5 j* T+ W1 J8 u) [! K3 Y* [
    8.1 数据的获取
    " G6 e  q& ^) [& T; u$ d8.2 基于Spark 的时间和空间数据分析 ; w7 [" p: E: O! n; A) _
    8.3 基于JodaTime 和NScalaTime 的时间数据处理 4 h! S* F' Y" L- u' H
    8.4 基于Esri Geometry API 和Spray 的地理空间数据处理   x, X( t+ N6 u; d, L  ]2 B$ o
    8.4.1 认识Esri Geometry API 3 \$ N7 F& S" f% ^
    8.4.2 GeoJSON 简介
    0 d& z* u9 [% @8.5 纽约市出租车客运数据的预处理 3 D# x% e7 M; J
    8.5.1 大规模数据中的非法记录处理
    % L" i+ W" E2 Y0 ~' T3 `8.5.2 地理空间分析
    " T1 }$ u  U& D$ t9 K# W2 x8.6 基于Spark 的会话分析
    5 R' d0 G6 F$ @; [: G4 G3 b3 ^% [; F8.7 小结 1 ?- n. y* |7 y
    第9 章 基于蒙特卡罗模拟的金融风险评估 - R0 `  I' c: f/ a* C
    9.1 术语
    ! S! H! ~1 q' ^+ t7 L9.2 VaR 计算方法
      g" {4 U. o* G' f: E9.2.1 方差- 协方差法
    6 Z; y) T" }6 t7 s2 |3 \9.2.2 历史模拟法
    7 D. V/ {: s; _- u& p9.2.3 蒙特卡罗模拟法 8 P& [4 `- T# m! l1 M7 ~( x9 q
    9.3 我们的模型
    " W5 o* r$ |" O9.4 获取数据
    ; r2 a/ p; G! \( L1 R9.5 数据预处理 / N* q/ i4 d! Y4 P" l" I, A
    9.6 确定市场因素的权重 - x" Q9 C( t) H- h7 f% S* ~" f3 L" W+ Q
    9.7 采样
    5 b, S5 V: z' d3 W  f9.8 运行试验
    , m( k# g& ?! r6 y9.9 回报分布的可视化 0 j+ q2 m( x9 L
    9.10 结果的评估 7 c/ g5 b! J) P9 X) E% m( _
    9.11 小结
    6 Z' f: }. ~  u2 a# B, ?3 k2 T# {4 y第10 章 基因数据分析和BDG 项目
    6 ]5 [& l8 G4 B( H* n1 X# a) k10.1 分离存储与模型 - U# E7 P/ N! m2 N6 f/ I6 S9 a
    10.2 用ADAM CLI 导入基因学数据
    * Z1 Z8 `3 o* C$ h2 S10.3 从ENCODE 数据预测转录因子结合位点 - S  C: ?2 ^* }8 Q
    10.4 查询1000 Genomes 项目中的基因型 * {: C) w) r- J& ?0 U
    10.5 小结 $ e/ O* L3 H' N) |$ e1 a4 f
    第11 章 基于PySpark 和Thunder 的神经图像数据分析
    : B4 H% @  k1 H* B! ^11.1 PySpark 简介 6 e) w; I8 V# R4 K& ~6 t
    11.2 Thunder 工具包概况和安装 , A! j! H" B4 s7 f
    11.3 用Thunder 加载数据 0 ~, |6 }# M$ T- i
    11.4 用Thunder 对神经元进行分类 . g, F% ?1 c& S5 t# J! J1 X: W* ]
    11.5 小结 ; m1 N- X$ T1 B) C" B

    - j# [  w  m8 @  _# h& a3 I& V  E- Y* O  k* P+ N: Q2 R
    百度网盘下载地址链接(百度云):java自学网(javazx.com)Spark高级数据分析  PDF 高清 电子书 百度云.rar【密码回帖可见】
    ; J; a! p0 v) P0 R
    游客,如果您要查看本帖隐藏内容请回复
    8 {4 C7 ~5 `5 Z; Z
    * C: i5 A* @+ C2 ^* ]) M
    0 q- F" A) i7 j- w( [
    回复

    使用道具 举报

  • TA的每日心情
    郁闷
    2020-12-13 15:17
  • 签到天数: 299 天

    [LV.8]已臻大成

    0

    主题

    445

    帖子

    5016

    积分

    普通会员

    Rank: 2

    积分
    5016
    发表于 2017-2-12 14:47:01 | 显示全部楼层
    谢谢,好书,谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    慵懒
    2017-3-20 10:33
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    27

    积分

    普通会员

    Rank: 2

    积分
    27
    发表于 2017-2-14 11:19:48 | 显示全部楼层
    请说一下提取密码 谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-2-15 00:10
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    8

    帖子

    46

    积分

    普通会员

    Rank: 2

    积分
    46
    发表于 2017-2-15 00:29:51 | 显示全部楼层
    好好学习了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2019-11-19 08:58
  • 签到天数: 4 天

    [LV.2]登堂入室

    0

    主题

    19

    帖子

    91

    积分

    普通会员

    Rank: 2

    积分
    91
    发表于 2017-2-16 22:30:29 | 显示全部楼层
    谢谢,好书,谢谢
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-2-24 10:56
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    4

    帖子

    17

    积分

    普通会员

    Rank: 2

    积分
    17
    发表于 2017-2-24 11:02:51 | 显示全部楼层
    000000000000000000
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2021-5-3 06:14
  • 签到天数: 451 天

    [LV.9]功行圆满

    1

    主题

    845

    帖子

    30万

    积分

    终身VIP

    Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60Rank: 60

    积分
    307967
    发表于 2017-2-24 14:57:16 | 显示全部楼层
    111111111111111111111111111111111111
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    郁闷
    2017-3-4 17:44
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    19

    帖子

    52

    积分

    普通会员

    Rank: 2

    积分
    52
    发表于 2017-2-27 17:39:07 | 显示全部楼层
    进来学习的,分享及伟大。
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-3-1 13:33
  • 签到天数: 1 天

    [LV.1]初学乍练

    0

    主题

    42

    帖子

    95

    积分

    普通会员

    Rank: 2

    积分
    95
    发表于 2017-3-1 14:31:08 | 显示全部楼层
    :):):):):):):):):):)
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2017-3-16 00:02
  • 签到天数: 2 天

    [LV.1]初学乍练

    0

    主题

    22

    帖子

    72

    积分

    普通会员

    Rank: 2

    积分
    72
    发表于 2017-3-15 23:30:53 | 显示全部楼层
    感谢分享,谢谢
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-5-4 09:56 , Processed in 0.109038 second(s), 40 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表