这就是搜索引擎

张俊林

出版时间

2011-12-31

ISBN

9787121148651

评分

★★★★★

标签

算法

书籍介绍

搜索引擎作为互联网发展中至关重要的一种应用,已经成为互联网各个领域的制高点,其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域,搜索引擎各个子系统是如何设计的?这成为广大技术人员和搜索引擎优化人员密切关注的内容。

本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍,除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外,还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术,同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外,本书也密切关注搜索引擎发展的前沿技术:Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解,同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解,全书大量引入形象的图片来讲解算法原理,相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。

AI导读
核心看点
  • 全面解析爬虫、索引、排序等搜索引擎核心技术架构
  • 图文并茂,用通俗语言讲解复杂算法,降低理解门槛
  • 涵盖云计算、反作弊等前沿技术,展望搜索未来方向
适合谁读
  • 对搜索引擎原理感兴趣的互联网从业者及技术人员
  • 希望快速建立搜索技术知识体系的初学者
  • 从事SEO优化及数据挖掘的相关领域人员
读前提醒
  • 本书侧重广度而非深度,适合构建体系而非钻研细节
  • 部分技术内容可能随互联网发展而略显过时
  • 排版风格独特,部分读者可能觉得图例过多影响阅读
读者共识
  • 内容通俗易懂,是难得的搜索引擎入门科普佳作
  • 能帮读者将零散知识点串联成系统化的技术框架
  • 虽被指隔靴搔痒,但作为综述索引价值极高

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "1995年是搜索引擎商业公司发展的重要起点, 其对应的背景是: 互联网上的Web站点数量首次超过100万, 此时普通用户已无法依赖手工浏览的方式来获得自己想要的信息, 在这一年产生了很多风云一时的早期搜索引擎公司. Yahoo, InfoSeek, Fast Search, AltaVista, Excite等曾经非常著名的搜索引擎公司都创建于1995年"
  • "文本检索的一代使用经典的信息检索模型, 如布尔模型,向量空间模型或概率模型, 来计算用户查选关键词和网页文本内容的相关程度. 网页之间有丰富的链接关系, 而这一代搜索引擎并未使用这些信息. 目前几乎所有的商业搜索引擎都采取了链接分析技术"
  • "查询的平均长度是2.7个单词"
  • "从某种角度看, 链接分析之所以能够改善搜索结果,可以认为是对信息的可信赖度做出的评判, 返回重要网页即可信赖网页"
  • "选取一部分网页作为种子URL, 放入待抓取队列, 爬虫从此队列依次读取, 并将URL通过DNS解析, 将链接地址转换为IP, 然后将其和网页相对路径名称交给网页下载器, 网页下载器负责页面内容下载. 下载到本地的网页一方面将其存储到页面库中, 等待建立索引等后续处理, 另一方面将下载网页的URL放入已抓取URL队列中, 以避免重复抓取. 对于刚下载的网页, 从中抽取出所包含的所有链接信息. 并在已抓取URL队列中检查, 如发现链接还没有被抓取过, 则将其放入待抓取队列末尾. 在之后的抓取调度中会下载这个URL对应的网页. 循环直到待抓取URL队列为空"
  • "友好性: 保护网站部分私密, 减少被抓取网站的网络负载"
  • "暗网爬虫的目的是将暗网数据从数据库中挖掘出来,并将其加入搜索引擎的索引,这样用户在搜索时可以利用这些数据"
作者简介
张俊林:本科毕业于天津大学管理学院,2004年于中科院软件所直接获得博士学位并留所从事科研工作,研究方向为搜索引擎与自然语言处理。2005年在CSDN博客发布系列博文“搜索引擎设计实用教程:以百度为例”,在网络上获得了广泛转载与良好口碑。2006年作为联合创始人建立了智能信息聚合网站“玩聚网”,曾先后于阿里巴巴搜索技术中心任资深搜索技术研究员、房价网首席研究员,现任职于新浪微博,从事微博搜索与语义分析及推荐方面的研发工作。
目录
目 录
第1章 搜索引擎及其技术架构 1
1.1 搜索引擎为何重要 1
1.1.1 互联网的发展 1
1.1.2 商业搜索引擎公司的发展 3

显示全部
用户评论
入门书都给人一种什么东西都是故弄玄虚其实秒懂的错觉
出乎意料的好
有点过时了,微信读书的排版很极品,但貌似目前也没有很好的搜索引擎中文科普了。
挺好的入门书
比较通俗,可惜对细节涉及不深,每章最后自带paper references
D1图书馆
扫盲书
读这本书让我感觉回到了大学时期学课本教材。本书用心的介绍了搜索引擎原理和核心技术,是本搜索引擎技术入门的好书。 但是总是要挑挑毛病对吧,一是这书写的比较早了技术已经不新了,二是作者在书里对不同内容的介绍的繁简程度把控我没太懂,大白话说就是我不太明白为什么有的地方特别详细有的地方一带而过。 总之是本入门好书,另外必须感叹,发明出这些搜索算法的人也太聪明了!
结构清晰,不懂技术也能轻松了解搜索引擎原理
概览书。
下载
收藏