帮忙发表论文搜索引擎日志分析方法技术应用

来源:期刊VIP网所属分类:计算机网络发布时间:2013-11-27浏览:

  论文摘要:文章介绍了“天网”系统中的信息统计子系统。信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。

  关键词: 搜索引擎、信息统计、机器学习新词

  第一章 背景介绍

  §1.1 Internet 和 WWW 的发展与现状

  Internet是一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。

  Internet的前身是60年代末,70年代初美国国防部高级研究计划署的实验性网络ARPANET。组建ARPANET的最初原因是当时计算机的价格非常昂贵,所以科研工作者们想通过网络进行远程计算。后来,人们才逐渐认识到它作为通讯手段的好处。1983年后,ARPANET中有关军事的部分被隔离为MILNET。其后,1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。

  90年代初到现在,是Internet增长最迅速的时期。1993年,Internet的增长速度是341%。截止到1996年7月,Internet已连接了134336个网络,入网主机1228万台,以及数以亿计的用户。Internet上的信息资源随着Internet的发展也呈现出以下特点:

   信息量大而且分散

   自治性强

   信息资源多种多样

   信息变化快

   不一致和不完整性

  这些特点对网络软件的性能提出了很高的要求。

  World Wide Web(WWW)是全球性的网络信息系统。一九八九年,位于瑞士的European Laboratory for Particle Physics(CERN)首先开始了WWW的研究工作。随后,许多其它的研究机构、大学和公司也加入WWW研究者的行列,并相继开发出各自的WWW软件。这些WWW软件的运行平台覆盖了目前主流的计算机硬件和操作系统。在此过程中,WWW也不断完善和发展。同时,为了保证不同WWW软件之间的互操作性,一系列WWW协议和标准也正在使用和完善之中。

  WWW是基于超文本(Hypertext)和超媒体(Hypermedia)的分布式信息系统。超文本和超媒体是信息的一种组织形式,如图1.1所示:

  在超文本文件中,包含有许多指针,这些指针被称为超文本链(Hyperlink)。每一个超文本链都指向其它的超文本信息。这些超文本信息可能存放在同一台计算机中,也可能存放在WWW信息系统的其它计算机中。读者并不关心这些超文本信息存放在何处,如果他们想了解这些信息,他们就可以通过超文本链得到。超媒体是对超文本的扩展。在超媒体系统中,超媒体链可以指向任何媒体信息,包括图象、音频、视频等等。超文本和超媒体为用户进行信息检索提供了极大的方便。

  §1.2 搜索引擎技术的发展与现状

  随着WWW的迅速发展,Internet上出现了WWW信息查询服务,它们通常被称作搜索引擎。这些搜索引擎一般是预先由程序自动地在网上递归地访问WWW页面,将访问的信息存入数据库。然后将数据库中的信息建立索引,并提供给用户WWW的查询界面。搜索引擎根据用户的请求查询数据库,并将结果按相关程度排序后输出给用户。

  目前的搜索引擎大致可分为三大类:分类编目搜索引擎(Directory Search Engine)、机器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。分类编目搜索引擎以Yahoo公司的Yahoo!为代表,机器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot为代表, 元搜索引擎以go2net的MetaCrawler为代表。

  国外搜索引擎起步较早,功能全面,性能良好,但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文,但在对中文信息的处理上尚存在很多不足,如不能准确切词,不能在上下文环境中理解语义等等。

  第二章 系统概述

  §2.1 系统的总体结构

  “天网(WebGather)”中英文搜索引擎系统是为满足用户对中国教育科研计算机网(CERNET)及INTERNET上的信息资源的检索和查找需要而研制开发的。本系统的研制列入CERNET应用系统课题项目,其目标是建立CERNET上能广泛应用的WWW资源索引与查找系统。它符合相关的INTERNET标准,能够自动对WWW信息进行定向搜集,同时建立WWW资源索引数据库,以满足远程WWW浏览器的交互式查询请求,并将查询的结果以HTML文件的形式返回给用户。

  本系统主要由WWW信息存取和分析子系统、WWW信息收集控制子系统、NEWS收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。其总体结构如图2.1所示。

  §2.2系统技术特征

  本系统有以下技术特征:

  1. 信息收集符合Internet的相关协议和标准。

  因为本系统收集的主要是Internet上的信息,所以在设计开发时把对有 关协议和标准的支持作为一个重要的目标。这些协议和标准包括:HTTP协议、MIME、HTML语言、WWW Robots标准、NNTP协议。

  2. 实用、高效的信息分析方法。

  本系统主要根据HTML中不同的Tag区分页面中各个部分信息内容在文章中的重要性和所处的位置,并结合使用中文分词、词频统计和一定的自然语言理解技术,智能化地提取该页面的关键词和摘要。

期刊VIP网,您身边的高端学术顾问

文章名称: 帮忙发表论文搜索引擎日志分析方法技术应用

文章地址: http://www.qikanvip.com/jisuanjiwangluo/10254.html