第3部分_搜:通向世界的巨型引擎

这个世界需要什么？建立一家全方位解答这个问题的公司，你就能够揭开市场营销，商业运作甚至是人类文明领域（尽管对此人们还存有疑义）的众多未解之谜。过去几年中间，Google似乎就建立起了这样一家公司。

第8节：早期的搜索1

作者：＇美＇约翰·巴特利

第三章

前Google时代搜索

AltaVista不是第一个搜索引擎，可是，它处理搜索问题的方式却显著地改进了这项艺术。

微软公司著名工程师加里·弗雷克（GaryFlake）博士

早期的搜索

一般认为，第一个网络搜索引擎的荣耀属于Archie。这个前网络时代用户搜索程序是由麦吉尔（McGill）大学的一名叫做艾伦·埃姆塔基（AlanEmtage）的学生在1990年发明的。1990年以前，搞学术和科研的人经常使用因特网来存储论文、技术规范和计算机上其他文件，以便他人可以通过公共途径获得这些文件。可是，除非你知道计算机的确切地址和文件名，否则根本不可能找到这些档案文件。Archie所做的就是，捕获因特网上的所有档案文件（英语单词拼写是Archive，因此程序叫做Archie）然后为每个被找到的文件建立一个索引。

根据因特网的普通文件传输协议（FTP）标准，Archie的体系结构同大部分的现代搜索引擎类似捕获网络资源，建立索引，再提供一个搜索界面。不过，前网络时代不是一个用户界面友好的时代。只有真正的技术人员和搞学问的人在使用Archie，不过在这些人中间它确实很受欢迎。一个典型的用户通过一个命令控制端口直接同Archie服务器连接起来，然后向引擎发出查询请求。如果他们认为某些关键词在匹配的文件名中，就向Archie发出包含这些关键词的查询请求，然后，会收到一张地址列表，说明某个匹配的文件可能被保存在这些地址。然后，他们再同这台机器建立连接，在上面查找自己想要找的文件。并不是非常好用，但总比什么都没有强。

Archie这个名字里有奇异的吸引力，非常适合年轻的因特网。1993年，内华达大学的学生发明了Veronica。这个名字是对漫画书上这对夫妇名字玩笑式的模仿。Veronica的工作方式同Archie大致相同，但是它采用的是Gopher协议，而不是FTP。Gopher协议是一个比FTP更成熟的，且被普遍使用的因特网文件共享标准。Veronica使搜索更进一步接近我们目前对搜索的期待，因为Gopher协议使搜索用户可以直接同他查询的文件建立连接，而不是仅仅同保存这个文件的计算机连接。步子不大，不过毕竟是进步。

第9节：早期的搜索2

作者：＇美＇约翰·巴特利

Archie和Veronica都缺乏语义功能，也就是说它们不能够索引文件全文，而只是索引文件名。这意味着，搜索用户必须知道或者推测出待查文件的文件名。如果你要找一个〃日程表〃，而文件的文件名是〃今天的任务〃，那么你肯定找不到这个文件，即使实际上这个文件的第一个词就是〃日程表〃。随着网络的兴起，人们很快就不再使用Archie和Veronica了。

网络一出现，搜索这个基本问题就随之出现。当因特网的用户仅限于学术和技术工作者的时候，找东西的问题还只是局限在一定范围内。但是1993～1996年期间，网络上的网站数目从130激增到600000。马萨诸塞（Massachusetts）技术学院的研究人员马修·格雷（MatthewGray）一直在观察因特网的成长。作为一位先行者，他发明了最早的网络搜索引擎万维网Wanderer。

格雷发现，人类的认识远远跟不上网络发展的步伐，Wanderer就是用来解决这个问题的。后来格雷在一篇文章中写道：〃我编写Wanderer的目的是让他系统性地在网络中来回移动，收集所有网站。鉴于网络成长迅速，我的重心很快转移到以图表记录网络的成长过程。

Wanderer是自动捕获网站并生成网站索引的机器人。格雷还编写程序，制作了一个方便用户查找所有这些索引的界面。格雷的Wanderer程序还有一个之前人们没想到的作用。网络形成之初，频带宽度是一种稀缺资源。许多网站管理员都认为Wanderer在做网站索引的时候吃掉了太多处理和带宽资源。为了解决这个问题，后来格雷对这个网页捕获器做了一些细微的改进，采用一种宽度算法，使它在进行索引步骤之前先加宽网站的频带宽度。这种方法现在还因其高效率而被广泛采用。格雷说：〃这并非最好的搜索引擎，却是最早的。〃

Wanderer很快就被许多性能更优良的引擎取代了。其中之一就是由华盛顿大学的研究人员布赖恩·平克顿（BrainPinkerton）开发的WebCrawler。平克顿是1994年在为史蒂夫·乔布（SteveJob）的公司Next工作时无意中发明WebCrawler的。（像大多数先驱计算机公司一样，乔布公司的Next机器及其开发的NextStep软件都领先市场水平五年左右。这家公司开发的许多项技术，包括内置以太网，高质量色彩等现在还是几乎每一台台式个人电脑都采用的技术。）当时，平克顿要同时应付学术研究任务和工作。他学术研究的课题是分子生物科技同计算机科学，而他的工作任务是为Nextstep操作系统开发新一代的网络浏览器，包括其内置的搜索功能。

平克顿渐渐对搜索技术，尤其是其中对网页进行索引的技术着了迷。这一步并不太难，就是让网页捕获器像网络浏览器那样提取URL。平克顿创造出一个还处于雏形阶段的网页捕获器WebCrawler，并开始用它索引网站。

当时，Google的PageRank算法还未问世，不过，平克顿已经注意到了链接的重要性。他采用下面的检验方法来测试自己于1994年3月新建成的这个数据库。他想知道哪些站点被其他站点引用的次数最多，或者说，在其他站点上拥有最多的指向该站点的链接（用今天的话讲，就是最Googlejuice）。排名第一的是CERN的一个万维网项目的主页。GERN是设在瑞士日内瓦的一所重要的原子物理实验室。

WebCrawler在搜索引擎发展史上占据重要地位，因为是它开创了对网络文件进行全文索引的先河。1994年4月，平克顿把自己的这个课外发明上传到了网上。截至当年11月份，它

第3部分（2 / 2）