CERNET分布式中英文WWW信息发现系统设计方案

来源:期刊VIP网所属分类:计算机网络发布时间:2013-12-11浏览:

  论文摘要:依据CERNET在“九五”攻关项目“计算机信息网络及其应用关键技术研究”中确立的“中文编码和分布中英文信息发现”子专题的项目要求设计实现了分布式中英文WWW信息发现系统。并提出了支持中文信息,有良好分布和高度并行的设计目标。随后介绍了它的信息收集和检索两个子系统的设计。

  关键词: 资源信息发现,WWW,搜索引擎

  第一章 Internet信息发现技术发展与现状

  一、Internet 的发展

  Internet是一个由各种不同类型和规模的独立运行和管理的计算机网络组成的全球范围的计算机网络。它的前身是60年代末,70年代初美国国防部高级研究计划署的实验性网络ARPANET。1983年后,ARPANET中有关军事的部分被隔离为MILNET。其后,1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。

  90年代初到现在,是Internet增长最迅速的时期,加入Internet的人员、计算机和网络的数量以指数方式增长,Internet上的网络从1985年的100个左右,迅速发展到1992年的5000多个。截止1996年7月,Internet已连接了134346个网络,入网主机1228万台,以及数以亿计的用户。

  二、Internet信息资源的特点

  随着各个国家和组织的网络不断加入,Internet成为一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。Internet上的信息资源随着Internet的发展也呈现了以下特点:

  ·信息量大而且分散:目前,网上有几千个匿名FTP服务器分布在网上的不同区域,为用户提供了数以百万计的文件资料。我们将在后面提到的WWW技术给每个用户展现自己的机会,这又构成了另一个广阔的信息空间。可以说,Internet是世界范围内的信息量最大的图书馆,为人们提供了丰富的信息资源。

  ·自治性强:作为广域互连的Internet不是也不可能是由一个国家或组织单独管理的。提供何种服务,如何提供,使用何种技术都是由每个接入Internet的组织自己作主。在这种广域网的环境下,要达成广泛的一致意见往往比较困难。

  ·信息资源多种多样: 用户可以通过Internet上的多种服务获得信息,如FTP,Gopher,Archie,WAIS等等,这些信息资源无论从内容还是形式都呈现出多样异构的特点。

  ·信息变化快:首先,随着Internet的增加,新的信息不断涌现,其次,现有的信息也在不断变化。最典型的当属“News”服务,其以GB为单位的信息隔几天就要更新一次。

  ·不一致性和不完整性。例如,一个人的信息可以在个人WWW主页,X.500目录服务等多个信息源中出现,当信息发生改变时,在这些信息源中改动的次序和改动是否完整都会影响信息的一致性和完整性。

  信息发现系统的一个重要目标就是提供给用户一个有组织的一致的信息视图,在设计系统时,我们应当考虑到Internet上信息的特点。

  三、WWW的特点及其迅速发展

  WWW(World Wide Web)是九十年代初Internet上的全球性的网络信息系统。超文本和超媒体是WWW使用的关键技术。它使文本、图象、音频和视频等信息有机地结合起来,提供了丰富的信息表示能力。用户可以用友好、方便多样的界面存取信息,成为人们发布和共享信息的重要工具。越来越多的公司通过自己的主页展示推销自己;越来越多的大学、科研机构也通过网页来交流研究成果;越来越多的个人也拥有了自己的主页,所有这些都导致WWW信息迅速膨胀。在1993年下半年,WWW在不到三个月的时间里翻了一翻,即使现在WWW也以每六个月一翻的速度增长。1995年4月,WWW在网上的流量超过了Internet上其它服务的流量,并一直稳居首位。据不完全统计,1996年初,网上大约有1900万网页,到现在WWW上的网页数决不会低于2亿。

  四、信息发现服务的迫切性

  作为一个无穷无尽的信息源泉,Internet为人们提供了巨大的并且还在不断增长的信息资源和服务,Internet上各种各样的信息源源不断地流向人们。然而在你寻找所需的信息时,Internet又象是一个信息的迷宫,让人感觉无所适从,不知如何迅速定位自己真正需要的信息,仅依靠超文本链在迷宫中漫游,多半会徒劳无功。所以,人们迫切希望有信息发现工具为他们在WWW上搜寻信息提供导航。

  五、Internet信息发现技术的发展状况

  (一)已有信息发现系统的回顾

  随着Internet发展,Internet上的信息发现服务和工具也逐渐发展起来。比较典型的有Archie,WAIS, Gopher,X.500等,另外,还有众多的“搜索引擎”(Search Engine),如Excite,Infoseek,Alta Vista。

  1、Archie实际上是一个大型的数据库,和与这个数据库相关的一套检索方法。(转载自论文之家 http://www.papershome.com,请保留此标记。)Archie数据库存有通过FTP获取的资源信息,包括这些资源的文件名、文件长度、存放该文件的主机名及目录。目前,Archie数据库已存入了大约1200个 FTP服务器、250万个文件的资料。Internet上有三十几个Archie服务器,查询 FTP的任务分布在各个服务器,它们之间通过执行基于扩散(flooding_based)的一致性保持协议,来保证信息的一致性。Archie的开发者把它描述为资源发现和信息获取的低端技术(low_tech)方案。Archie的成功要归结于它的简单性和对已有机制的利用。Archie有点类似于图书馆中的检索卡片。当你去图书馆查阅书籍时,如果你不知道你要寻找的书放于哪一个馆区的哪一个书架,那么,你通常不会挨个书架去找,而是会先查阅图书检索卡片。Archie也一样,如果你不知道您要拷贝的文件放在哪一台FTP 服务器中,你根本不可能挨个FTP服务器去查找,通过Archie,你可以根据文件名比较方便地找到文件存贮的位置。不过,Archie没有针对文件的简要说明,仅通过文件名进行索引,利用Archie检索时,你必须事先知道文件名或文件名的某些部份。Archie 还有另外一个不足的地方,就是它收集的资料还不全面。由于是否把 FTP服务器的资料放入Archie完全取决于自愿原则,错漏或更新不及时的情况就难以避免。

期刊VIP网,您身边的高端学术顾问

文章名称: CERNET分布式中英文WWW信息发现系统设计方案

文章地址: http://www.qikanvip.com/jisuanjiwangluo/10755.html