|
java自学网(www.javazx.com)-java论坛,java电子书推荐:《开发者自己的 搜索引擎Lucene+Heritrix》
9 K6 T# N% R) }% }7 o% w& yjava电子书推荐理由:内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。
1 e) i2 `7 A, e. E1 a/ g0 R# L3 X! O5 W q
作者:邱哲,符滔滔,王学松 编著& l2 z* ~; p# G3 o6 w _
出版社:人民邮电出版社; q. O! d8 z( S2 j
出版时间:2010-013 x& V# a4 C9 B# A: e& B
: [6 _( l" K; k( E2 I$ B- [
8 [2 `+ P8 p6 C* B
t9 Z& w' `* D' c6 P# Zjava电子书目录:1 R) T' P) ]9 E2 h, {& `" g/ \ l
" |$ L. w8 z( C A3 ~2 m* ?" k; S& n第1章 搜索引擎与信息检索 , I E) a& [! T
1.1 搜索引擎的历史
7 w2 a8 m- M) Y! l! c2 d/ k 1.1.1 萌芽:Archie、Gopher
+ R" H$ J% C5 q- f7 C: E, p. y 1.1.2 起步:Robot(网络机器人)的出现与Spider(网络爬虫)
( s! Z0 x1 A. j- i/ a/ h 1.1.3 发展:Excite、Galaxy、Yahoo等
" b; ?) H8 Q0 L! _# g 1.1.4 繁荣:Infoseek、AltaVista、Google和Baidu
" g" y; \* a7 y$ D7 i% Q 1.2 信息检索系统的基本知识 A& B4 k) `) [" i. [4 @$ }: X5 j
1.2.1 信息检索系统
8 Y) I p* z5 d7 [, k; ] 1.2.2 信息检索的过程 $ ^0 E) ]# x$ J8 ?9 I0 ]
1.2.3 传统查找的优点和不足
2 L9 m+ b1 V& Y4 t8 M- k 1.2.4 使用索引提高检索速度 3 o, G" z- G8 y
1.2.5 倒排索引
3 L0 I# ~( q) ^& L' z) ] V* D 1.2.6 评价信息检索系统的标准 ' _' D% f1 n% D, k7 u
1.3 Lucene的简介 ' E" p$ w5 f& x; x
1.4 小结
^4 a; x% H3 _6 y第2章 Lucene入门实例 0 `+ n8 }& g* s& m3 R B
2.1 实例介绍
; d9 m8 u% u: G* Z2 y. u4 u) | 2.1.1 实例说明
3 H& K5 c2 w/ {' a7 e' k S 2.1.2 开发过程 * v P6 ~: D' Q
2.2 准备工作 . k& G; E. q6 l4 l: v6 E. O& H4 y' k
2.2.1 将文档的全角标点转成半角标点 % S% E! J \8 I- Z* s; p
2.2.2 将大文档切分成多个小文档 2 U6 ]) g# Q$ _" R" X1 d8 T
2.2.3 预处理源文件的统一接口 3 G/ o1 C- r( `0 ?6 t
2.3 创建Eclipse工程 + j7 b8 X9 @* _+ r
2.3.1 准备工作 ) z$ N8 |+ d4 K( Y/ r5 g
2.3.2 创建工程并引入Lucene的JAR包 4 ?0 q2 r p+ p5 [4 }. ?
2.3.3 运行文档预处理类 5 x. k# I: K6 P* x+ e
2.3.4 创建处理文档的索引类:IndexProcessor ( _! {: {6 N8 f1 w9 {
2.3.5 创建检索索引的搜索类 4 n5 M; \; N! |/ m# C4 n% k
2.4 运行效果 ; J- U" i: M _( @. I9 t7 H
2.5 小结 / P0 W$ m8 d9 J. h6 s2 {
第3章 索引的建立
, w) p; i3 G; `4 [3 S, H: O# w 3.1 Document逻辑文件
/ Y! c; n( o4 _ 3.1.1 Lucene的Document 8 ~& B, n! `8 x2 X
3.1.2 为Document添加多种Field 2 T; ?% |# U" X9 H0 J1 v2 F
3.1.3 Document的内部实现 2 u r, M& Y. D6 \: j- @3 V
3.2 Field的内部实现
2 |) |: s+ n. V# t! @, \7 r 3.2.1 Field包含的类 4 I6 |" g b& N
3.2.2 Field类的构造方法
2 p1 r! l( P+ i( r7 _/ w 3.3 Lucene的索引工具IndexWriter
# y9 d1 \2 l! X) c2 y- \* l 3.3.1 IndexWriter的初始化 $ v! e5 c" B5 q/ v
3.3.2 向索引添加文档 , d3 g& E" @. r! `3 O) K: @ M
3.3.3 限制每个Field中的词条的数量 / X# p( f6 E/ y8 H+ ~) t$ M1 b& `+ d2 c
3.4 Lucene索引过程详解 ' ?0 G3 S# ~9 L
3.4.1 Lucene索引建立过程概览
2 ?9 Q3 g3 w! q* S( L 3.4.2 使用addDocument方法向索引添加文档
! [7 r4 ]: K5 n6 ~0 i 3.4.3 DocumentWriter的addDocument方法
$ Y g- [; h8 C; m 3.4.4 文档的倒排
- Q" ~; e7 \2 f; v6 D 3.4.5 对postingTable进行排序 1 ~7 E$ Q4 t$ b8 h6 f
3.4.6 将Posting信息写入索引
% O# i1 T' Q0 U. B4 T( r 3.5 索引文件格式
$ \# k2 u n, ? 3.5.1 索引的segment
: C3 l2 e/ y2 A6 G3 P7 _# z. T 3.5.2 .fnm格式
, ~! A+ X% e/ f& F+ b$ y 3.5.3 .fdx与.fdt格式 / H. T% E1 f8 J6 f f$ V Z, B
3.5.4 .tii与.tis格式 ) O! \! z: Q" k, B ^
3.5.5 deletable格式 ' P* Q; C; J9 n4 l
3.5.6 复合索引格式.cfs * t+ b2 c% `! H) f" g
3.6 索引过程的调优 0 y1 ~- V# Y. M- i1 I4 ?! p
3.6.1 合并因子mergeFactor
5 m7 z4 W |. b$ |% I1 G/ J' [% m 3.6.2 maxMergeDocs
1 b' A& @/ m8 X6 @5 B 3.6.3 minMergeDocs
% t* |& l4 w' t& q" v 3.7 索引的合并与索引的优化 7 o9 d' X( `: y- G0 X) D, f
3.7.1 FSDirectory与RAMDirectory
0 X) t {2 s4 [( l; l 3.7.2 使用IndexWriter来合并索引
* O' E& }8 {8 P" T% ^: o& q 3.7.3 索引的优化 . M9 M# F' l! P8 r
3.8 从索引中删除文档
/ {: a* R2 \6 V, ?$ B" a& D5 M 3.8.1 索引的读取工具Index-Reader
3 s) H0 B4 Q f, J5 z 3.8.2 使用文档ID号来删除特定文档
5 v# F) C: M% U- G0 p2 a 3.8.3 使用Field信息来删除批量文档
9 @3 |3 y" b/ {* ]0 m 3.9 Lucene的同步问题 $ _; g: g' k6 R4 o1 q
3.9.1 为什么要进行同步以及Lucene的同步法则 , V: K6 h/ k2 W$ B( p1 U- G4 t( n8 T
3.9.2 commit.lock与write.lock + l# s+ e% x- ]) }4 W! U. l* Z- q
3.10 Lucene 2.0的新类:IndexModifier类 ; ~1 E9 Z$ `% K# u: L u
3.11 小结 3 E/ S+ u! H' }7 j+ f0 o. l6 c* F) S
第4章 Lucene搜索7 b: k& i0 d$ p$ E% @
第5章 排序、过滤和分页
) }! n b; g. S5 H: v( o第6章 Lucene的分析器 4 J2 Q3 a. ^* c. r8 K+ Z" }
第7章 Word、Excel和PDF的处理' w) l% O9 M* j5 F) b( H
第8章 Compass:封装了Lucene的框架
5 o0 f d1 C& A& f5 N9 Z第9章 Lucene分布式 + ^5 |3 \% ]+ d* g
第10章 无比强大的网络爬虫Heritrix" R+ L7 ?- W- [& I+ x/ T- v$ X
第11章 搜索引擎综合实例:准备篇 % O3 ?5 p5 x- a4 o
第12章 搜索引擎综合实例:下载篇
4 J/ g3 h- o) J% z/ k) Y. ~+ M( G第13章 使用正则表达式与HTML Parser分析网页$ A3 B! i0 K6 E' W9 u1 H9 o) C" |
第14章 网页内容存储与索引 7 I* G5 _& j0 D) | R6 C) J6 L
第15章 搜索引擎综合实例:交互篇
" o' B- S9 I8 }9 P9 D% N& Q第16章 搜索引擎综合实例:Web篇
7 M* E. i: _! l附录 Lucene 2.4更新内容: d9 q/ s% {$ g& n& r
' N3 ~% u! ^5 X& U9 F+ x百度网盘下载地址链接(百度云)下载地址:java自学网(javazx.com)开发者自己的 搜索引擎Lucene+Heritrix PDF 高清 电子书 百度云.rar【密码回帖可见】
! k, C" z; D1 r; b) W( d
w2 M8 M$ l; r4 V+ ~3 B
, M4 `" e7 p0 ]5 m$ X6 G4 e# q" ?5 I% z0 j
5 G- o1 A# ~: [# e; x
6 V$ Z& ^; o- Q- h' M9 p' m
/ i4 K. ]/ k+ m5 ?( x; Q( o/ `, V) X9 M. I8 k6 t5 b, n7 V
% P+ T! F" O, e( U5 Q
|
|