java自学网VIP

Java自学网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2374|回复: 0

《深入解析YARN架构设计与实现原理》第1章 环境准备【1.6】

[复制链接]
  • TA的每日心情
    开心
    2021-5-25 00:00
  • 签到天数: 1917 天

    [LV.Master]出神入化

    2025

    主题

    3683

    帖子

    6万

    积分

    管理员

    Rank: 9Rank: 9Rank: 9

    积分
    66101

    宣传达人突出贡献优秀版主荣誉管理论坛元老

    发表于 2017-4-13 21:18:45 | 显示全部楼层 |阅读模式
    1.6 编译及调试Hadoop源代码
    ; `: p9 _6 I3 B; [5 u) H读者在阅读源代码过程中, 可能需要修改部分源代码或者使用调试工具以便跟踪某些变量值变化过程, 此时要用到Hadoop
    1 ~1 ~5 n0 D8 P9 H
    源代码编译和调试方法。 本节将介绍Hadoop在伪分布式模式下的编译和调试方法, 其中调试方法主要介绍使用Eclipse远程调试工* o+ B3 r" J; H8 w4 @
    具和打印调试日志两种。9 ^* i. a4 a3 ^# i. X
    Hadoop天生支持Linux而对其他操作系统( 如Windows) 很不友好, 本书也鼓励读者直接在Linux平台下编译和调试Hadoop源代( j/ d7 A/ w6 y* A6 L
    码, 因此, 本节介绍的内容全部在
    Linux环境下。2 o  ~# q* \( P* x7 s
    1.6.1 编译Hadoop源代码
      T0 \. L1 Q, |+ k8 i$ w) b5 v
    Linux环境下编译源代码之前, 需进行以下准备工作:& U1 R$ ?! n6 }+ X& C: B9 B
    ❑确保安装的Maven版本在3.0.2以上;
    4 Y* Q/ B; e& y+ H  R
    ❑Protocol Buffers安装版本为2.5.0
    % c: s" y: k- g4 f; a! m7 E, J
    ❑如果要启用findbugs, 则需确认已经安装了Findbugs, \  w" J6 K! J( [5 z/ G  R! W: U
    ❑如果要编译native code, 则需确认安装了CMake 2.6或者更新版本;' Y, u5 ~6 u! E& _. F, G
    ❑第一次编译代码, 需确认可以连接互联网( Maven要从代码库中下载依赖包) 。
    : r# V! b6 q, k
    Maven编译命令如表1-2所示。# J+ r" ~0 t$ }% N! H6 W/ @8 p% ]
    1-2 Maven编译命令! R0 L7 H. A! ]# r4 N% {0 B
    如果仅编译生成
    JAR包而无须编译native code、 测试用例和生成文档, 可在Hadoop安装目录下并输入以下命令( 推荐使用该  g; J+ M, N9 G& |% @4 ~
    命令编译
    Hadoop源代码) :, }6 F: d- a8 r) ^# ^# s& c
    mvn package -Pdist -DskipTests -Dtar
    ' s4 D+ e! y8 B9 g5 c% X/ M# T如果编译JAR包、 native code并生成文档, 可使用以下命令:6 r% u1 X! j( N# c9 x0 `% ]; x
    mvn package -Pdist,native,docs -DskipTests -Dtar$ w6 N: i/ _2 _: _
    每个子模块编译后生成的JAR包放到了与源代码目录平级的target目录中, 比如ResourceManager的源代码目录是:
      H& Y% }1 e" d/ r$ D5 m8 K, O5 _
    ${YARN_HOME}/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-2 u" c2 D, Q: b6 G
    server/hadoop-yarnserver-resourcemanager/src
    / h7 X8 k( L" x它对应生成JAR包放在了以下目录中:4 [4 `  w) f9 f- y
    ${YARN_HOME}/hadoop-yarn-project/hadoop-yarn/hadoop-yarnserver/hadoop-yarnserver-resourcemanager/target# T/ K5 I$ \4 ^& E6 D
    如果修改了某个模块的代码, 可编译后, 将对应的JAR包覆盖到${HADOOP_HOME}/share/hadoop目录中对应的JAR包上。
    / e. _$ |0 c5 v: O; J如果仅编译
    Hadoop的某一个子模块, 需将该模块依赖的JAR包作为它的第三方库引入。 一种简单的实现方式是在Hadoop安装
    4 O4 R. q/ n8 L, B! B) G0 Y目录下输入以下命令编译所有源代码:5 R) z4 n( i5 P) v, f8 V
    mvn install -DskipTests: B# q% _' ^1 L9 }1 h/ V# u& L
    然后进入子模块目录, 编译生成对应的JAR包。3 b( M# ^5 E5 u+ i
    1.6.2 调试Hadoop源代码
    ( |; L8 Y+ v4 d7 v
    本节介绍两种调试Hadoop源代码的方法: 利用Eclipse远程调试工具和打印调试日志。 这两种方法均可以调试伪分布式工作模
    8 o- m, G+ f9 l# ~! }% e式和完全分布式工作模式下的
    Hadoop。 本节主要介绍伪分布式工作模式下的Hadoop调试方法。$ w" f: {+ J5 x  E" M0 r% Y
    1) 利用Eclipse进行远程调试8 H& P3 q) {' ]) c( L
    下面以调试
    ResourceManager为例, 介绍利用Eclipse远程调试的基本方法, 这可分两步进行。2 j7 i8 Z. Q  p1 @2 A: C3 A
    步骤
    1 调试模式下启动Hadoop* T  n; \! Y+ @% }: N% p
    Hadoop安装目录下运行如下的Shell脚本:1 C$ {, v' U* {% S
    export YARN_NODEMANAGER_OPTS="-Xdebug -Xrunjdwp:transport=dt_socket,address=8788,
    " L" @! g( G8 S7 _# q7 }+ E! O) ~server=y,suspend=y"
    : V5 h$ u5 U1 h8 @sbin/start-all.sh
    : m7 [6 C8 b: B运行了脚本后会看到Shell命令行终端显示如下信息:" d9 h. C9 |2 @' X% \; i+ t- h) X
    Listening for transport dt_socket at address: 8788
    8 p% U2 p2 |9 ]6 z* i此时表明ResourceManager处于监听状态, 直到收到debug确认信息。8 P9 V  ?/ b$ F: t
    步骤
    2 设置断点。
    : P7 K; V/ h5 s7 t2 q/ _6 W在前面新建的
    Java工程"hadoop-2.0"中, 找到ResourceManager相关代码, 并在感兴趣的地方设置一些断点。; g4 K: w3 S# s5 X
    步骤
    3 Eclipse中调试Hadoop程序。- C" O3 `/ A/ m  y; b# N
    Eclipse的菜单栏中, 依次选择"Run"→"Debug Configurations"→"Remote Java Applications", 并按照要求填写远程调试器名称/ Z$ {, G, e3 e8 \' o( J
    ( 自己定义一个即可) ,
    ResourceManager所在host以及监听端口号等信息, 并选择Hadoop源代码工程, 便可进入调试模式。& r& O( t8 a' w9 r% k1 y" }
    调试过程中,
    ResourceManager输出的信息被存储到日志文件夹下的yarn-XXX-resourcemanager-localhost.log文件( XXX为当前用
    # c) V3 C4 r4 j5 D$ Q户名) 中, 可通过以下命令查看调试过程中打印的日志:  j0 x$ n7 c. Z: @: K6 j$ T
    tail -f logs/yarn-XXX-resourcemanager-localhost.log! N- k1 F/ N7 U+ Z4 {
    2) 打印Hadoop调试日志( l; y) P1 v5 d9 s( b
    Hadoop使用了 Apache log4j [5] 作为基本日志库, 该日志库将日志分别5个级别, 分别为DEBUGINFOWARNERROR
    1 X% S( O+ K) v1 v: ?: q
    FATAL。 这5个级别是有顺序的, 即DEBUG <INFO <WARN <ERROR <FATAL, 分别用来指定日志信息的重要程度。 日志输出规. U7 x4 }& V0 T/ g5 O  b1 _
    则为: 只输出级别不低于设定级别的日志信息, 比如若级别设定为INFO, 则INFOWARNERRORFATAL级别的日志信息都
    3 m+ ~; ~/ A) _; ]1 h* V+ e$ a会输出, 但级别比
    INFO低的DEBUG则不会输出。$ _* C4 i, L( }0 T( Y3 Z
    Hadoop源代码中, 大部分Java文件中存在调试日志( DEBUG级别日志) , 但默认情况下, 日志级别是INFO, 为了查看更9 O$ l9 G/ d- D* p
    详细的运行状态, 可采用以下几种方法打开
    DEBUG日志。) e, a7 }/ }& }% s
    方法1 使用Hadoop Shell命令。
    2 R) |/ V! O) ^1 M( _! \: }( H6 j3 }可使用
    Hadoop脚本中的daemonlog命令查看和修改某个类的日志级别, 比如, 可通过以下命令查看NodeManager类的日志级% a' J! }3 E0 J/ G0 f/ |
    别:
    , i( a+ G& Z, k& {$ s
    bin/hadoop daemonlog -getlevel ${nodemanager-host}:8042 \3 n6 a  A: q9 _% x* H& K# m- z6 }
    org.apache.hadoop.yarn.server.nodemanager.NodeManager
    . C; d7 F7 u6 A4 @2 q可通过以下命令将NodeManager类的日志级别修改为DEBUG
    : O, Y7 n* X5 j
    bin/hadoop daemonlog -setlevel ${nodemanager-host}:8042 \
    / A9 n0 V8 w  morg.apache.hadoop.yarn.server.nodemanager.NodeManager DEBUG
    4 ~0 f6 @! i1 U6 b; @0 K其中, nodemanager-hostNodeManager服务所在的host8042NodeManagerHTTP端口号。6 _+ G* E4 z, H0 n) K
    方法2 通过Web界面。' x7 z, e! ?* }  [& J9 r
    用户可以通过
    Web界面查看和修改某个类的日志级别, 比如, 可通过以下URL修改NodeManager类的日志级别:" S* w2 L7 z8 X- _: E  ]- H
    http://${nodemanager-host}:8042/logLevel
    . N; \" a' Q% v9 S0 h+ H' k3 ]% F方法3 修改log4j.properties文件。
    ( l# `3 Z7 g5 M. `- u* `以上两种方式只能暂时修改日志级别, 当
    Hadoop重启后会被重置, 如果要永久性改变日志级别, 可在目标节点配置目录下$ g+ `1 a. ]9 ]* A
    log4j.properties文件中添加以下配置选项:* b( K+ J( w' X  J0 ?. i5 ~
    log4j.logger.org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG
    + v3 {0 X. Q( l' i; R0 d' v* l此外, 有时为了专门调试某个Java文件, 需要把该文件的相关日志输出到一个单独文件中, 可在log4j.properties中添加以下内( p8 @" L& {$ H9 E- n
    容:# M5 J- Y# H2 A9 C: t
    # 定义输出方式为自定义的TTOUT" r7 C" b5 P) P" u/ d8 X) K
    log4j.logger. org.apache.hadoop.yarn.server.nodemanager.NodeManager=DEBUG,TTOUT
    6 S7 m( ^9 I7 s; N4 v# 设置TTOUT 的输出方式为输出到文件& l! k$ I7 Q' _& t& j  T
    log4j.appender.TTOUT =org.apache.log4j.FileAppender
    0 t: X, P+ x" |+ E: l. T/ |# 设置文件路径
    & D& s4 O& z% Y% ^
    log4j.appender.TTOUT.File=${hadoop.log.dir}/NodeManager.log
    8 ~. W) ]9 x2 k3 }# 设置文件的布局' d% n: J; D7 j' L: H  `  }
    log4j.appender.TTOUT.layout=org.apache.log4j.PatternLayout
    " F3 ]9 T$ O; b! p# 设置文件的格式# v  Z( b; P( F$ m
    log4j.appender.TTOUT.layout.ConversionPattern=%d{ISO8601} %p %c: %m%n5 M* Y  b- A' T' P0 z3 `
    这些配置选项会把NodeManager.java中的DEBUG日志写到日志目录下的NodeManager.log文件中。: g  v: \! S/ H4 `
    在阅读源代码的过程中, 为了跟踪某个变量值的变化, 读者可能需要自己添加一些
    DEBUG日志。 在Hadoop源代码中, 大部: C7 N6 h' M' U
    分类会定义一个日志打印对象, 通过该对象可打印各个级别的日志。 比如, 在
    NodeManager中用以下代码定义对象LOG: P3 l9 \: ^* L" P
    public static final Log LOG = LogFactory.getLog(NodeManager.class);. v/ z6 H* g& S
    用户可使用LOG对象打印调试日志。 比如, 可在NodeManagermain函数首行添加以下代码:
    * }, _; w8 v7 ?- ^4 B7 L2 F
    LOG.debug("Start to lauch NodeManager...");
    / Z8 N0 z3 p  k然后重新编译Hadoop源代码, 并将org.apache.hadoop.yarn.server.nodemanager.NodeManager的调试级别修改为DEBUG, 重新启
    5 j. M' c+ c! i" M  c
    Hadoop后便可以看到该调试信息。/ f5 G; m1 W. V" T" h( q7 p( _  N
    [5] Apache log4j网址: http://logging.apache.org/log4j/index.html, ]8 J. k% {" O. _( j/ R1 E% d" Y* \
    1.7 小结' a1 {0 l1 O- J# _$ _
    搭建一个高效的源代码学习环境是深入学习Hadoop的良好开端, 本章主要内容正是帮助读者搭建一个这样的学习环境。 在3 N0 M  J5 e; F) f4 q" q
    笔者看来, 一个高效的
    Hadoop学习环境至少应该包括源代码阅读环境、 Hadoop使用环境和源代码编译调试环境, 而本章正是围  c& F+ g/ Z& X# R7 @* N
    绕这三个环境的搭建方法组织的。. r: y2 `7 c6 ?) M: P
    本章介绍了
    Linux环境下搭建Hadoop源代码阅读环境的方法, 在此基础上, 进一步介绍了Hadoop的基本使用方法, 主要涉及
    3 ?0 R; w: P  i! d/ b4 [4 W1 c
    Hadoop ShellEclipse插件两种工具的使用。 最后介绍了Hadoop源代码编译和调试方法, 其中, 调试方法主要介绍了使用Eclipse: j' i  w3 W. K8 L0 X" e  J
    程调试和打印调试日志两种。
      7 K/ Y- [% h- s% C3 u4 R
    3 ^$ o. O  q: p5 B" _5 M" m  K7 J
    ) R0 D4 c# P5 d: H. \, p* j8 w% f
    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|手机版|小黑屋|Java自学网

    GMT+8, 2024-5-6 09:50 , Processed in 0.068786 second(s), 35 queries .

    Powered by Javazx

    Copyright © 2012-2022, Javazx Cloud.

    快速回复 返回顶部 返回列表