罗刚,猎兔搜索创始人,带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔信息提取系统、猎兔智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测。曾编写出版《自己动手写搜索引擎》、《自己动手写网络爬虫》、《使用C#开发搜索引擎》,获得广泛好评。在北京和上海等地均有猎兔培训的学员。张子宪,聊城大学教师、中国矿业大学(北京)博士生,研究方向:自动句法分析、机器翻译。
Java中文文本信息处理
罗刚
评分 暂无
全书以零基础的读者自学完成一个中文分词系统作为目标。从Java基础语法开始,然后到文本处理相关的数据结构和算法,*后实现文本切分和词性标注。本书是少有的介绍业界热门的Java开发中文分词的书籍。本书选取相关领域的经典内容深入理解和挖掘,也综合了实践性强的创新想法。适用于对软件开发感兴趣的青少年或者大学生。 罗刚,计算机软件硕士,毕业于吉林工业大学。2005年创立北京盈智
自己动手写网络爬虫
评分 5.6分
解密搜索引擎技术实战
评分 6.7分
《解密搜索引擎技术实战-Lucene&Java精华版(附盘)》,本书主要包括总体介绍部分、爬虫部分、自然语言处理部分、全文检索部分以及相关案例分析。爬虫部分介绍了网页遍历方法和如何实现增量抓取,并介绍了从网页等各种格式的文档中提取主要内容的方法。自然语言处理部分从统计机器学习的原理出发,包括了中文分词与词性标注的理论与实现以及在搜索引擎中的实用等细节,同时对文档排重、文本分类、自动聚类、句法分析树
自然语言处理与Java语言实现
本书介绍了自然语言处理的原理与Java编程语言的技术实现,主要包括多种语言的文本处理、分布式算法与代码实现、自然语言处理相关系统构建等内容。 全书共分3篇:篇(章)为基础篇,着重介绍了使用Java开发自然语言处理技术会用到的基础知识;第2篇(第2-9章)为开发篇,着重讨论了自然语言处理常用的基本模块:多种语言分词与标注、语义分析、文章分析、文本相似度计算、文档排重、文本摘要、关键词提取、信息提取
Elasticsearch大数据搜索引擎
评分 0.0分
网络爬虫全解析
评分 4.2分
《网络爬虫全解析——技术、原理与实践》介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,《网络爬虫全解析——技术、原理与实践》介绍了实现分布式网络爬虫的关键技术。 另外,《网络爬虫全解析——技术、原理与实践》介绍了从图像