帮忙发表论文搜索引擎日志分析方法技术应用

来源：期刊VIP网所属分类：计算机网络发布时间：2013-11-27浏览：次

　　论文摘要：文章介绍了“天网”系统中的信息统计子系统。信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。本文给出了信息统计子系统的总体结构，并详细介绍了该子系统的两个重要部分，数据库信息处理和日志文件信息处理的设计目标和实现算法，并介绍了如何让机器自动学习新词。

　　关键词：搜索引擎、信息统计、机器学习新词

　　第一章背景介绍

　　§1.1 Internet 和 WWW 的发展与现状

　　Internet是一个规模巨大、自治性强、发展变化快，用户访问频繁的国际互联网络。

　　Internet的前身是60年代末，70年代初美国国防部高级研究计划署的实验性网络ARPANET。组建ARPANET的最初原因是当时计算机的价格非常昂贵，所以科研工作者们想通过网络进行远程计算。后来，人们才逐渐认识到它作为通讯手段的好处。1983年后，ARPANET中有关军事的部分被隔离为MILNET。其后，1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。

　　90年代初到现在，是Internet增长最迅速的时期。1993年，Internet的增长速度是341%。截止到1996年7月，Internet已连接了134336个网络，入网主机1228万台，以及数以亿计的用户。Internet上的信息资源随着Internet的发展也呈现出以下特点：

　　 信息量大而且分散

　　 自治性强

　　 信息资源多种多样

　　 信息变化快

　　 不一致和不完整性

　　这些特点对网络软件的性能提出了很高的要求。

　　World Wide Web(WWW)是全球性的网络信息系统。一九八九年，位于瑞士的European Laboratory for Particle Physics(CERN)首先开始了WWW的研究工作。随后，许多其它的研究机构、大学和公司也加入WWW研究者的行列，并相继开发出各自的WWW软件。这些WWW软件的运行平台覆盖了目前主流的计算机硬件和操作系统。在此过程中，WWW也不断完善和发展。同时，为了保证不同WWW软件之间的互操作性，一系列WWW协议和标准也正在使用和完善之中。

　　WWW是基于超文本(Hypertext)和超媒体(Hypermedia)的分布式信息系统。超文本和超媒体是信息的一种组织形式，如图1.1所示：

　　在超文本文件中，包含有许多指针，这些指针被称为超文本链(Hyperlink)。每一个超文本链都指向其它的超文本信息。这些超文本信息可能存放在同一台计算机中，也可能存放在WWW信息系统的其它计算机中。读者并不关心这些超文本信息存放在何处，如果他们想了解这些信息，他们就可以通过超文本链得到。超媒体是对超文本的扩展。在超媒体系统中，超媒体链可以指向任何媒体信息，包括图象、音频、视频等等。超文本和超媒体为用户进行信息检索提供了极大的方便。

　　§1.2 搜索引擎技术的发展与现状

　　随着WWW的迅速发展，Internet上出现了WWW信息查询服务，它们通常被称作搜索引擎。这些搜索引擎一般是预先由程序自动地在网上递归地访问WWW页面，将访问的信息存入数据库。然后将数据库中的信息建立索引，并提供给用户WWW的查询界面。搜索引擎根据用户的请求查询数据库，并将结果按相关程度排序后输出给用户。

　　目前的搜索引擎大致可分为三大类：分类编目搜索引擎(Directory Search Engine)、机器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。分类编目搜索引擎以Yahoo公司的Yahoo!为代表，机器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot为代表, 元搜索引擎以go2net的MetaCrawler为代表。

　　国外搜索引擎起步较早，功能全面，性能良好，但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文，但在对中文信息的处理上尚存在很多不足，如不能准确切词，不能在上下文环境中理解语义等等。

　　第二章系统概述

　　§2.1 系统的总体结构

　　“天网(WebGather)”中英文搜索引擎系统是为满足用户对中国教育科研计算机网(CERNET)及INTERNET上的信息资源的检索和查找需要而研制开发的。本系统的研制列入CERNET应用系统课题项目，其目标是建立CERNET上能广泛应用的WWW资源索引与查找系统。它符合相关的INTERNET标准，能够自动对WWW信息进行定向搜集，同时建立WWW资源索引数据库，以满足远程WWW浏览器的交互式查询请求，并将查询的结果以HTML文件的形式返回给用户。

　　本系统主要由WWW信息存取和分析子系统、WWW信息收集控制子系统、NEWS收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。其总体结构如图2.1所示。

　　§2.2系统技术特征

　　本系统有以下技术特征：

　　1. 信息收集符合Internet的相关协议和标准。

　　因为本系统收集的主要是Internet上的信息，所以在设计开发时把对有关协议和标准的支持作为一个重要的目标。这些协议和标准包括：HTTP协议、MIME、HTML语言、WWW Robots标准、NNTP协议。

　　2. 实用、高效的信息分析方法。

　　本系统主要根据HTML中不同的Tag区分页面中各个部分信息内容在文章中的重要性和所处的位置，并结合使用中文分词、词频统计和一定的自然语言理解技术，智能化地提取该页面的关键词和摘要。

期刊VIP网，您身边的高端学术顾问

文章名称：帮忙发表论文搜索引擎日志分析方法技术应用

文章地址： http://www.qikanvip.com/jisuanjiwangluo/10254.html

上一篇：论文如何发表铁路货车车钩检修质量对车辆连挂可靠性影响

下一篇：浅论米德符号互动论互联网交流

帮忙发表论文搜索引擎日志分析方法技术应用

更多计算机网络文章推荐

专题专项服务