第3部分(2 / 2)

这个世界需要什么?建立一家全方位解答这个问题的公司,你就能够揭开市场营销,商业运作甚至是人类文明领域(尽管对此人们还存有疑义)的众多未解之谜。过去几年中间,Google似乎就建立起了这样一家公司。

第8节:早期的搜索1

作者:'美'约翰·巴特利

第三章

前Google时代搜索

AltaVista不是第一个搜索引擎,可是,它处理搜索问题的方式却显著地改进了这项艺术。

微软公司著名工程师加里·弗雷克(GaryFlake)博士

早期的搜索

一般认为,第一个网络搜索引擎的荣耀属于Archie。这个前网络时代用户搜索程序是由麦吉尔(McGill)大学的一名叫做艾伦·埃姆塔基(AlanEmtage)的学生在1990年发明的。1990年以前,搞学术和科研的人经常使用因特网来存储论文、技术规范和计算机上其他文件,以便他人可以通过公共途径获得这些文件。可是,除非你知道计算机的确切地址和文件名,否则根本不可能找到这些档案文件。Archie所做的就是,捕获因特网上的所有档案文件(英语单词拼写是Archive,因此程序叫做Archie)然后为每个被找到的文件建立一个索引。

根据因特网的普通文件传输协议(FTP)标准,Archie的体系结构同大部分的现代搜索引擎类似捕获网络资源,建立索引,再提供一个搜索界面。不过,前网络时代不是一个用户界面友好的时代。只有真正的技术人员和搞学问的人在使用Archie,不过在这些人中间它确实很受欢迎。一个典型的用户通过一个命令控制端口直接同Archie服务器连接起来,然后向引擎发出查询请求。如果他们认为某些关键词在匹配的文件名中,就向Archie发出包含这些关键词的查询请求,然后,会收到一张地址列表,说明某个匹配的文件可能被保存在这些地址。然后,他们再同这台机器建立连接,在上面查找自己想要找的文件。并不是非常好用,但总比什么都没有强。

Archie这个名字里有奇异的吸引力,非常适合年轻的因特网。1993年,内华达大学的学生发明了Veronica。这个名字是对漫画书上这对夫妇名字玩笑式的模仿。Veronica的工作方式同Archie大致相同,但是它采用的是Gopher协议,而不是FTP。Gopher协议是一个比FTP更成熟的,且被普遍使用的因特网文件共享标准。Veronica使搜索更进一步接近我们目前对搜索的期待,因为Gopher协议使搜索用户可以直接同他查询的文件建立连接,而不是仅仅同保存这个文件的计算机连接。步子不大,不过毕竟是进步。

第9节:早期的搜索2

作者:'美'约翰·巴特利

Archie和Veronica都缺乏语义功能,也就是说它们不能够索引文件全文,而只是索引文件名。这意味着,搜索用户必须知道或者推测出待查文件的文件名。如果你要找一个〃日程表〃,而文件的文件名是〃今天的任务〃,那么你肯定找不到这个文件,即使实际上这个文件的第一个词就是〃日程表〃。随着网络的兴起,人们很快就不再使用Archie和Veronica了。

网络一出现,搜索这个基本问题就随之出现。当因特网的用户仅限于学术和技术工作者的时候,找东西的问题还只是局限在一定范围内。但是1993~1996年期间,网络上的网站数目从130激增到600000。马萨诸塞(Massachusetts)技术学院的研究人员马修·格雷(MatthewGray)一直在观察因特网的成长。作为一位先行者,他发明了最早的网络搜索引擎万维网Wanderer。

格雷发现,人类的认识远远跟不上网络发展的步伐,Wanderer就是用来解决这个问题的。后来格雷在一篇文章中写道:〃我编写Wanderer的目的是让他系统性地在网络中来回移动,收集所有网站。鉴于网络成长迅速,我的重心很快转移到以图表记录网络的成长过程。

Wanderer是自动捕获网站并生成网站索引的机器人。格雷还编写程序,制作了一个方便用户查找所有这些索引的界面。格雷的Wanderer程序还有一个之前人们没想到的作用。网络形成之初,频带宽度是一种稀缺资源。许多网站管理员都认为Wanderer在做网站索引的时候吃掉了太多处理和带宽资源。为了解决这个问题,后来格雷对这个网页捕获器做了一些细微的改进,采用一种宽度算法,使它在进行索引步骤之前先加宽网站的频带宽度。这种方法现在还因其高效率而被广泛采用。格雷说:〃这并非最好的搜索引擎,却是最早的。〃

Wanderer很快就被许多性能更优良的引擎取代了。其中之一就是由华盛顿大学的研究人员布赖恩·平克顿(BrainPinkerton)开发的WebCrawler。平克顿是1994年在为史蒂夫·乔布(SteveJob)的公司Next工作时无意中发明WebCrawler的。(像大多数先驱计算机公司一样,乔布公司的Next机器及其开发的NextStep软件都领先市场水平五年左右。这家公司开发的许多项技术,包括内置以太网,高质量色彩等现在还是几乎每一台台式个人电脑都采用的技术。)当时,平克顿要同时应付学术研究任务和工作。他学术研究的课题是分子生物科技同计算机科学,而他的工作任务是为Nextstep操作系统开发新一代的网络浏览器,包括其内置的搜索功能。

平克顿渐渐对搜索技术,尤其是其中对网页进行索引的技术着了迷。这一步并不太难,就是让网页捕获器像网络浏览器那样提取URL。平克顿创造出一个还处于雏形阶段的网页捕获器WebCrawler,并开始用它索引网站。

当时,Google的PageRank算法还未问世,不过,平克顿已经注意到了链接的重要性。他采用下面的检验方法来测试自己于1994年3月新建成的这个数据库。他想知道哪些站点被其他站点引用的次数最多,或者说,在其他站点上拥有最多的指向该站点的链接(用今天的话讲,就是最Googlejuice)。排名第一的是CERN的一个万维网项目的主页。GERN是设在瑞士日内瓦的一所重要的原子物理实验室。

WebCrawler在搜索引擎发展史上占据重要地位,因为是它开创了对网络文件进行全文索引的先河。1994年4月,平克顿把自己的这个课外发明上传到了网上。截至当年11月份,它

最新小说: 丁一蓝文集 独向一隅文集 邓岚心文集 弄哭那个小呆子 不能出卖小猫咪 竹马总想扑倒我 苏苏修炼法则 丹房主人文集 戴高山文集 冬日小草文集