信息检索导论 - Christopher D.Manning

信息检索导论

Christopher D.Manning

出版时间

2010-07-31

ISBN

9787115234247

评分

★★★★★
书籍介绍

封面图片为英国伯明翰塞尔福瑞吉百货大楼,其极具线条感的轮廓外型优美,犹如水波的流动。其外表悬挂了1.5万个铝碟,创造出一种极具现代气息的纹理装饰效果,有如夜空下水流的波光粼粼,闪烁于月光之下,使建筑的商业氛围表现到极致。设计该建筑的英国“未来系统建筑事物所”,将商场内部围合成一个顶部采光的中庭,配以交叉的自动扶梯,使购物环境呈现出一种凝聚的向心力和商业广告的展示效应。作为英国第二商业城市伯明翰的建筑地标,人们称该建筑为“未来的百货商店”。因其设计构思的前卫性,该建筑获得2004年英国皇家建筑学会的“建筑设计奖”和2004年“英国皇家工艺美术委员会奖”等多个奖项。

本书从计算机科学领域的角度出发,介绍了信息检索的基础知识,并对当前信息检索的发展做了回顾,重点介绍了搜索引擎的核心技术,如文档分类和文档聚类问题,以及机器学习和数值计算方法。书中所有重要的思想都用示例进行了解释,生动形象,引人入胜,实现了理论与实战的完美结合。

本书的三位作者均是信息检索领域的顶级专家,两位来自学术教育界,一位来自硅谷业界,使本书既具备深厚的理论基础,又代表了尖端科技水准。因此,该书甫一出版,即被奉为该领域的权威著作,备受瞩目。目前已被众多世界名校采用为信息检索课程的教材。

AI导读
核心看点
  • 系统讲解搜索引擎核心技术,涵盖倒排索引与文档分类。
  • 结合机器学习与数值计算,实现理论与实战的完美结合。
  • 由斯坦福及硅谷专家联袂撰写,兼具学术深度与业界水准。
适合谁读
  • 计算机科学专业学生,尤其是选修信息检索课程者。
  • 从事搜索引擎开发、数据挖掘及自然语言处理工程师。
  • 对搜索算法底层原理感兴趣,希望构建宏观认知的读者。
读前提醒
  • 建议具备统计学基础,以便更好理解评分模型与算法。
  • 部分章节较学术化,初学者若遇困难可结合代码实践。
  • 书中侧重传统检索理论,前沿深度学习内容相对较少。
读者共识
  • 作为IR领域权威教材,逻辑清晰,适合建立知识体系。
  • 内容全面但部分细节描述不够深入,需配合其他资料。
  • 英文原版口碑极佳,中文版翻译质量总体受到认可。

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "The term “unstructured data” refers to datawhich does not have clear, semantically overt, easy-for-a-computer structure."
  • "A proximity operator is a way of specifying that two terms in a query must occur close to each other in a document, where closeness may be measured by limiting the allowed number of intervening words or by reference to a structural unit such as a sentence or paragraph."
  • "INTERSECTWITHSKIPS(p1, p2) 1 answer ← h i 2 while p1 = NIL and p2 = NIL 3 do if docID(p1) = docID(p2) 4 then ADD(answer, docID(p1)) 5 p1 ← next(p1) 6 p2 ← next(p2) 7 else if docID(p1) < docID(p2) 8 then if hasSkip(p1) and (docID(skip(p1)) ≤ docID(p2)) 9 then while hasSkip(p1) and (docID(skip(p1)) ≤ "
  • "(1) How many keys are we likely to have? (2) Is the number likely to remain static, or change a lot, and in the case of changes, are we likely to only have new keys inserted, or to also have some keys in the dictionary be deleted? (3) What are the relative frequencies with which various keys will be"
  • "1. Retain the first letter of the term. 2. Change all occurrences of the following letters to ’0’ (zero): ’A’, E’, ’I’, ’O’, ’U’, ’H’, ’W’, ’Y’. 3. Change letters to digits as follows: B, F, P, V to 1. C, G, J, K, Q, S, X, Z to 2. D,T to 3. L to 4. M, N to 5. R to 6. 4. Repeatedly remove one out of e"
  • "BSBINDEXCONSTRUCTION() 1 n ← 0 2 while (all documents have not been processed) 3 do n ← n +1 4 block ← PARSENEXTBLOCK() 5 BSBI-INVERT(block) 6 WRITEBLOCKTODISK(block, fn) 7 MERGEBLOCKS( f1, . . . , fn; fmerged)"
  • "SPIMI-INVERT(token_stream) 1 output_ f ile = NEWFILE() 2 dictionary = NEWHASH() 3 while (free memory available) 4 do token ← next(token_stream) 5 if term(token) / ∈ dictionary 6 then postings_list = ADDTODICTIONARY(dictionary, term(token)) 7 else postings_list = GETPOSTINGSLIST(dictionary, term(toke"
  • "VBENCODENUMBER(n) 1 bytes ← hi 2 while true 3 do PREPEND(bytes, n mod 128) 4 if n < 128 5 then BREAK 6 n ← n div 128 7 bytes[LENGTH(bytes)] += 128 8 return bytes VBENCODE(numbers) 1 bytestream ← hi 2 for each n ∈ numbers 3 do bytes ← VBENCODENUMBER(n) 4 bytestream ← EXTEND(bytestream, bytes) 5 retur"
作者简介
Christopher D. Manning,1989年毕业于澳大利亚国立大学,1995年获斯坦福大学语言学博士学位,曾先后在卡内基-梅隆大学、悉尼大学教授语言学,1999年起任斯坦福大学计算机科学和语言学副教授,其主要研究方向是统计自然语言处理、信息提取与表示,以及文本理解和文本挖掘等。 Prabhakar Raghavan,毕业于印度理工学院,后获加州大学伯克利分校计算机科学博士学位,自2005年起担任Yahoo!研究中心负责人,同时也是斯坦福大学计算机科学系顾问教授。其主要研究方向是文本及Web数据挖掘、组合优化、随机算法等,此前曾任Verity公司CTO,在IBM研究院担任过管理工作。 Hinrich Schütze,斯坦福大学博士,现任斯图加特大学自然语言处理研究所理论计算语言学主任。他在美国硅谷工作过多年,曾担任过Enkata公司首席科学家。
目录
第1章 布尔检索 1
1.1 一个信息检索的例子 2
1.2 构建倒排索引的初体验 5
1.3 布尔查询的处理 8
1.4 对基本布尔操作的扩展及有序检索 11

显示全部
用户评论
很多地方描述得不清晰,缺乏细节和条理。
没人送又买不起,只有借了!
: G252.7/6432
考试是刷书的绝佳机会,呵呵。这本书太基础了,想搞信息检索的人还是先学学机器学习吧
以后看...
很棒的IR入门书,深入浅出,简洁明了又有一定趣味性。
研一的时候跟的一个导师做的方向不太喜欢,后来就跟了另一个导师,好处是不管我做什么了,坏处是我也不知道要做啥,然后当时有师兄做数挖这块,就跟着选了这块。中间有次在学校碰到了研一的导师,导师问我现在做的是什么,是搜索那块的工作吗,我说勉强算是吧(其实差别挺大的),就买了这本书,一直也没看,因为感觉用不上。研究生毕业之后做了一年多的风控,感觉风控太简单后来又转去做了一年多推荐,最后无意间找工作去了熊厂,居然无意间做起了搜索,真是人生如梦兜兜转转又回到了原点的位置。再说回这本书,这真是一本神奇的书,从算法到工程实践无所不包,理论上如果代码能力足够好,可以仅仅依靠这本书,不使用任何三方工具(类似es这种),就能从零到一的做一个可用的搜索引擎。确实是很棒的书,现在读的缺点就是有点老了吧。
读过一章也算读过。。。
全面可靠。(后来的修订版没啥太大变化)2012-10-19京东购
NLP借IR发力,可翻读。
Z-Library
收藏