信息检索导论(修订版)

普拉巴卡尔•拉格万(Prabhakar Raghavan)

出版时间

2019-07-01

ISBN

9787115514080

评分

★★★★★
书籍介绍

本书是信息检索的教材,旨在从计算机科学的视角提供一种现代的信息检索方法。书中从基本概念讲解网络搜索以及文本分类和文本聚类等,对收集、索引和搜索文档系统的设计和实现的方方面面、评估系统的方法、机器学习方法在文本收集中的应用等给出了最新的讲解。

什么是排序SVM、XML、DNS和LSI?什么是信息检索中的垃圾信息、隐藏页和门页?MapReduce和其他一些并行运算方法是如何实现由兆字节到百万兆字节的飞跃的?这些问题你都能从本书中找到答案。本书首次将构建Web搜索引擎的复杂过程以一种清晰的全景方式展现给读者。——Peter Norvig,计算机科学家,Google研发总监

本书对信息检索这个举足轻重、发展迅猛的领域进行了全面、准确的介绍,是一本不可多得的教材。——Raymond Mooney,得克萨斯大学奥斯汀分校教授

本书选材独特,对信息检索的基础知识和发展方向进行了生动描述。——Jon Kleinberg,康奈尔大学教授

AI导读
核心看点
  • 系统讲解倒排索引构建与布尔检索原理
  • 全景展示Web搜索引擎的架构与实现细节
  • 涵盖文本分类、聚类及机器学习在IR中的应用
适合谁读
  • 计算机科学及相关专业的在校学生
  • 希望深入理解搜索引擎底层原理的开发者
  • 对自然语言处理和信息检索感兴趣的初学者
读前提醒
  • 建议具备基础统计学知识以便理解概率模型
  • 前九章为入门核心,后续章节可按兴趣选读
  • 部分算法内容较深,适合当作工具书备查
读者共识
  • 信息检索领域公认的经典入门教材
  • 内容全面基础,适合建立宏观知识体系
  • 部分章节略显浅尝辄止,需结合实践理解

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "The term “unstructured data” refers to datawhich does not have clear, semantically overt, easy-for-a-computer structure."
  • "A proximity operator is a way of specifying that two terms in a query must occur close to each other in a document, where closeness may be measured by limiting the allowed number of intervening words or by reference to a structural unit such as a sentence or paragraph."
  • "INTERSECTWITHSKIPS(p1, p2) 1 answer ← h i 2 while p1 = NIL and p2 = NIL 3 do if docID(p1) = docID(p2) 4 then ADD(answer, docID(p1)) 5 p1 ← next(p1) 6 p2 ← next(p2) 7 else if docID(p1) < docID(p2) 8 then if hasSkip(p1) and (docID(skip(p1)) ≤ docID(p2)) 9 then while hasSkip(p1) and (docID(skip(p1)) ≤ "
  • "(1) How many keys are we likely to have? (2) Is the number likely to remain static, or change a lot, and in the case of changes, are we likely to only have new keys inserted, or to also have some keys in the dictionary be deleted? (3) What are the relative frequencies with which various keys will be"
  • "1. Retain the first letter of the term. 2. Change all occurrences of the following letters to ’0’ (zero): ’A’, E’, ’I’, ’O’, ’U’, ’H’, ’W’, ’Y’. 3. Change letters to digits as follows: B, F, P, V to 1. C, G, J, K, Q, S, X, Z to 2. D,T to 3. L to 4. M, N to 5. R to 6. 4. Repeatedly remove one out of e"
  • "BSBINDEXCONSTRUCTION() 1 n ← 0 2 while (all documents have not been processed) 3 do n ← n +1 4 block ← PARSENEXTBLOCK() 5 BSBI-INVERT(block) 6 WRITEBLOCKTODISK(block, fn) 7 MERGEBLOCKS( f1, . . . , fn; fmerged)"
  • "SPIMI-INVERT(token_stream) 1 output_ f ile = NEWFILE() 2 dictionary = NEWHASH() 3 while (free memory available) 4 do token ← next(token_stream) 5 if term(token) / ∈ dictionary 6 then postings_list = ADDTODICTIONARY(dictionary, term(token)) 7 else postings_list = GETPOSTINGSLIST(dictionary, term(toke"
  • "VBENCODENUMBER(n) 1 bytes ← hi 2 while true 3 do PREPEND(bytes, n mod 128) 4 if n < 128 5 then BREAK 6 n ← n div 128 7 bytes[LENGTH(bytes)] += 128 8 return bytes VBENCODE(numbers) 1 bytestream ← hi 2 for each n ∈ numbers 3 do bytes ← VBENCODENUMBER(n) 4 bytestream ← EXTEND(bytestream, bytes) 5 retur"
作者简介
【美】克里斯托夫•曼宁 (Christopher Manning) 计算机科学家,斯坦福大学教授,斯坦福大学人工智能实验室主任,ACM会士、AAAI会士、ACL会士。目前的研究目标为计算机如何智能地处理、理解和生成人类语言资料。曼宁博士是深度学习在自然语言处理应用方面的先锋人物,在树递归神经网络、语义分析、神经机器翻译、深度语言理解等方面均有令业界瞩目的研究成果。 【美】普拉巴卡尔•拉格万(Prabhakar Raghavan)Google高级副总裁,目前负责谷歌的广告与商业产品、基础设施团队。之前作为Google App和Google Cloud的副总裁,带领团队做出了突出业绩。在加入Google前任职于Yahoo!,是Yahoo!实验室的创建者和负责人。拉格万博士毕业于加州大学伯克利分校,长期担任斯坦福大学计算机科学系顾问教授,主要研究方向是文本及Web数据挖掘、随机算法等,是美国国家工程院院士、ACM会士、IEEE会士。 【德】欣里希•舒策(Hinrich Schütze) 德国慕尼黑大学信息与语言处理中心主任,计算语言学家,斯坦福大学博士。曾在美国硅谷工作多年。 王斌 博士,小米公司AI实验室NLP方向首席科学家,前中国科学院信息工程研究所研究员、博导,中国科学院大学教授。 李鹏 博士,中国科学院信息工程研究所高级工程师,硕士生导师。
目录
第 1章 布尔检索 . 1
1.1 一个信息检索的例子 2
1.2 构建倒排索引的初体验 . 5
1.3 布尔查询的处理 8
1.4 对基本布尔操作的扩展及有序检索 11

显示全部
用户评论
对于原理讲得很清晰,逐步引导读者实现搜索引擎,加深对信息检索的理解
NLP启蒙
前九章作为IR的入门教程非常完美,后面的十几章可以选感兴趣的读
作为导论可以打100分,其中有一些关于语音搜索的点非常有启发性,对业务价值很大。Mark:https://libindic.org/Soundex
NLP与IR 修订版,可翻读。
上了这个领域的通识课。从倒排索引到二叉树、XML,信息检索和在森林里找一棵树一样,关键在于种树的时候。
一本经典教材的修订版,内容很全面,同时也很基础,适合研究信息检索的学生入门时看
下载
收藏