图书介绍

Lucene分析与应用

Lucene分析与应用
  • 吴众欣,沈家立 著
  • 出版社: 机械工业出版社
  • ISBN:9787111249924
  • 版次:1
  • 商品编码:10058748
  • 包装:平装
  • 丛书名: 原创精品系列
  • 开本:16开
  • 出版时间:2008-09-01
  • 用纸:胶版纸
  • 页数:279
  • 正文语种:中文

微信扫码关注

淘宝优惠券

PDF下载

立即下载 备用下载

赞助商

图书目录

前言
第1章 搜索引擎与Lucene
1.1 搜索引擎与Lucene简介
1.1.1 搜索引擎分类
1.1.2 Lucene项目简介
1.1.3 其他搜索引擎开发包介绍
1.2 Lucene的系统架构
1.2.1 Lucene最简示例
1.2.2 Lueene采用的索引结构
1.2.3 Lucene软件包架构
1.3 本书的章节导航
第2章 文档逻辑视图与文本分析
2.1 文档逻辑视图
2.2 Lucene的文本分析过程简介
2.3 空格解析器(WhitespaceAnalyzer)
2.3.1 空格分词器(Whitespace Tokenizer)
2.3.2 Token(标志)
2.4 标准解析器(StandardAnalyzer)
2.4.1 标准分词器(StandardTokenizer)
2.4.2 标准过滤器
2.5 打造自己的解析器
2.5.1 常用的中文分词法
2.5.2 对CJKAnalyzer的分析
2.5.3 构造自己的解析器
第3章 Lucene创建索引之一(段索引方式与倒排索引结构)
3.1 倒排结构与段索引方式
3.2 索引写入过程概述
第4章 Lucene创建索引之二(在内存中创建索引)
4.1 创建Document层面索引
4.2 写入field信息
4.3 文件倒排过程
4.4 填写postin,able
4.5 postingTable的排序过程
4.6 写入field名字文件(.fnm文件)
4.7 写入field信息文件(.fdt,.fdx文件)
4.8 写入频率与位置文件(.frq与.prx文件)
4.9 TermVector方式写入索引(.tvf,.tvd与.tvx文件)
4.10 字典文件(.tis与.tii文件)
4.11 写入规格化文件
第5章 Lucene创建索引之三(索引合并过程)
5.1 document层面的合并过程
5.2 field与term的合并过程
5.2.1 field信息合并过程
5.2.2 term信息合并过程
5.2.3 合并norm信息
5.3 Lunece索引采用的压缩算法
5.3.1 front coding(端部编码)
5.3.2 variable-byte coding(变长字节编码)
5.3.3 delta-coding或deha-encoding
5.4 小结
第6章 Lucene查询过程之一(查询模型与引擎预热)
6.1 查询模型
6.1.1 向量模型
6.1.2 布尔模型
6.1.3 Lucene的评分(score)方式
6.2 查询简单示例
6.3 引擎预热
6.3.1 获得并打开索引文件
6.3.2 获得segment信息
6.3.3 FSDirectory打开索引过程
6.3.4 获得field信息
6.3.5 获得term信息
第7章 Lucene查询过程之二(查询解析与语法)
7.1 构建查询解析器(QueryParser)
7.2 Lucene的查询语法
7.2.1 项(Tcrm)查询
7.2.2 域(Field)
7.2.3 词条查询(Term Modifiers)
7.2.4 布尔操作符(Boolean Operator)
7.2.5 组合查询(Grouping)
7.2.6 针对field的组合查询(Field Grouping Field)
7.2.7 Escaping Special Character(转义字符)
7.3 Lucene查询语法树的构建过程
7.3.1 过程分析
7.3.2 语法树分析实例
第8章 Lucene查询过程之三(相似度匹配与算法分析)
8.1 查询与相似度计算
8.1.1 查询器(Searcher)的查询过程
8.1.2 查询语句的权重计算
8.1.3 获得topK个document
8.2 Lncene查询算法分析
8.2.1 相似度计算简单实例
8.2.2 线性相似度计算
8.2.3 基于倒排索引的相似度计算
8.2.4 Lucene的相似度计算
第9章 Lucene标引与查询全程示例
9.1 实例描述
9.2 建立索引过程
9.2.1 选择文档中建立索引的.field
9.2.2 选择field录入方式
9.2.3 生成segment文件
9.2.4 生成fields文件
9.2.5 posting文件
9.2.6 合并segment index生成index文件
9.2.7 合并后的文件关系
9.3 查询过程
第10章 Lucene的常用应用场景分析
10.1 对大型XML文档集合的检索
10.1.1 都柏林文件介绍
10.1.2 XML分析器介绍
10.1.3 Lucene在大型XML文件中的应用
10.2 MuhiSearcher的应用
10.2.1 MultiSearcher的应用
10.2.2 ParallelMuhiSearcher的应用
第11章 利用Lucene构建分布式搜索引擎
11.1 分布式文件系统和Hadoop
11.1.1 Hadoop文件系统体系结构
11.1.2 系统交互过程:单一NameNode方式
11.1.3 系统组件描述
11.2 Nutch简单剖析
11.3 体验Nutch
附录A TestIndexWriterMerging
附录B TestDocumentWriter与DocHelper

查看全部 ↓

精品推荐