数据挖掘技术电视台新闻中心应用研究

来源:期刊VIP网所属分类:新闻传播发布时间:2015-01-20浏览:

  [摘要]:电视台的网站是通过防火墙将内部网与外部网进行分隔,现在在WEB服务器与防火墙之间新设一台交流中心DB2服务器,在WEB服务器上通过链接到此服务器上,交流中心DB2服务器上安装DB2数据库,进行登录人员身份验证,并将各地区电视台和特约记者提交的新闻稿放入到数据库中,应用软件能对各种稿件进行分类处理,建立一个稿件数据库,各地区电视台和特约记者能随时查阅、下载。

  [关键词]:数据仓库,数据挖掘技术,新闻中心

  一、数据仓库(DW)

  80年代初,W.H.Inmon在“记录系统”、“原子数据”和“决策支持系统”等专题研究报告中,提出了数据仓库或信息仓库的概念并给出了基本框架描述。按照Inmon的观点,数据仓库是面向主题的、集成的、非发散的、具有时间维的数据集合,用来服务于管理部门的分析和决策。数据仓库与传统事务数据库相比,主要有如下不同:

  (1)数据仓库的第一个特征就是面向企业重要的主题,它是一种分析驱动面向主题的数据处理技术,而不是传统的事务驱动/面向应用的数据处理方式。例如事务数据库是针对诸如贷款、财务、工资、人事等功能和应用设计的,而数据仓库则主要针对诸如顾客、供应商、产品等主题而设计。数据仓库追求整体最优,服务于管理分析与决策。事务数据库追求单一的处理最优,服务于在线事务处理。

  (2)数据仓库的另一个重要的特征就是其数据是集成化的,如一致的命名规则、一致的度量单位、一致的编码规则、一致的数据物理属性等。比如:在事务数据库中,时间的表示方法在应用A中为date (yymmdd ),在应用B中为date ( mmddyy ),那么导入数据仓库中后统一为date ( yymmdd ) 。这样保证了数据的可靠性与一致性。

  (3)数据仓库中的数据不是一个时刻的数据,而是一个时间段的数据,这是数据仓库区别事务数据库的基本特征。事务数据库的数据对当前是“精确”的,而数据仓库中的数据对一个时间段来说都是“精确”的,故具有时间跨度性。

  媒体论坛推荐:《视听界》是由中华人民共和国新闻出版总署、正式批准公开发行的优秀期刊。自创刊以来,以新观点、新方法、新材料为主题,坚持"期期精彩、篇篇可读"的理念。视听界内容详实、观点新颖、文章可读性强、信息量大,众多的栏目设置,视听界公认誉为具有业内影响力的杂志之一。视听界并获中国优秀期刊奖,现中国期刊网数据库全文收录期刊。

  (4)面向应用的事务数据库的操作基于单个记录的插入、更新与删除,性能敏感、内容易变且无冗余,而面向主题的数据仓库系统的操作基于多个数据源数据的成批刷新,性能不敏感、内容可有冗余。

  由此可以看出,数据仓库主要从历史的角度描述系统结构和状态的变化,它采用能够反映时间维特征的数据结构,将基于多个同质或异质事务数据库和外部信息作为数据源,经过提炼、加工、汇总和归一化处理,生成符合数据应用语义规范要求的数据集合,以满足企业多种复杂的信息需求和预测分析。

  二、数据挖掘的技术含义

  谈到数据挖掘,必须提到数据库中的知识发现(KDD: Knowledge Discovery in Databases)。关于KDD与Data Mining的关系,有许多不同的看法。我们可以从这些不同的观点中了解数据挖掘的技术含义。

  (1) KDD看成数据挖掘的一个特例

  既然数据挖掘系统可以在关系数据库、事务数据库、数据仓库、空间数据库(Spatial Database)、文本数据(Text Data)以及诸如WEB等多种数据组织形式中挖掘知识,那么数据库中的知识发现只是数据挖掘的一个方面。这是早期比较流行的观点,在许多文献可以看到这种说法。因此,从这个意义说,数据挖掘就是从数据库、数据仓库以及其它数据存储方式中挖掘有用知识的过程。这种描述强调了数据挖掘在源数据形式上的多样性。

  (2) 数据挖掘是KDD过程的一个步骤

  例如,在“知识发现1996国际会议” 上,许多学者建议对这两个名词加以区分[6]。核心思想是:KDD是从数据库中发现知识的全部过程,而Data Mining则是此全部过程的一个特定的、关键步骤。这种观点有它的合理性。虽然我们可以从数据仓库、WEB等源数据中挖掘知识,但是这些数据源都是和数据库技术相关的。数据仓库是由源数据库集成而来的,即使是像WEB这样的数据源恐怕也离不开数据库技术来组织和存储抽取的信息。因此KDD是一个更广义的范畴,它包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式生成及评估等一系列步骤。这样,我们可以把KDD看作是一些基本功能构件的系统化协同工作系统,而数据挖掘则是这个系统中的一个关键的部分。源数据经过清洗和转换等成为适合于挖掘的数据集,数据挖掘在这种具有固定形式的数据集上完成知识的提炼,最后以合适的知识模式用于进一步分析决策工作。从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。数据挖掘作为KDD的一个重要步骤看待,可以使我们更容易聚焦研究重点,有效解决问题。目前,人们在数据挖掘算法的研究上,基本属于这样的范畴。

  (3)KDD与Data Mining含义相同

  有些人认为,KDD与Data Mining只是叫法不一样,它们的含义基本相同。事实上,在现今的文献中,许多场合,如技术综述等,这两个术语仍然不加区分地使用着。也有人说,KDD在人工智能界更流行;Data Mining在数据库界使用更多。所以,从广义的观点,数据挖掘是从大型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。

  从上面的描述中可以看出,数据挖掘概念可以在不同的技术层面上来理解,但是其核心仍然是从数据中挖掘知识。所以,有人说叫知识挖掘更合适。本文使用数据挖掘的狭义定义。

  三、新闻中心数据仓库设计

  新闻中心信息交流系统是要在电视台网站下建立一个新闻信息交流中心。各地区电视台和特约记者通过Internet访问该新闻交流网站,通过身份认证进入交流中心,可以利用该中心提交新闻稿,查看其它地方台的稿件、采访计划,进行新闻交流,并查看省台串联单信息。电视台新闻部可以通过该中心进行约稿,公布约稿情况。

  由于安全需要,各地区电视台和特约记者不能直接进入到新闻部的服务器,而新闻部又必须能取得上传的新闻稿,所以我设计了如下的系统结构:

  WEB服务器

  交流中心DB2服务器

  防火墙

  新闻部DB2服务器

  电视台服务器

  防火墙能防止登录人员进入到电视台内部网中,而让新闻部DB2服务器对交流中心DB2服务器进行访问,这样,新闻部就能及时地将各地区电视台和特约记者提交的稿件取出并存入本地的DB2数据中,并能将约稿要求写入交流中心DB2数据库中,由登录用户提取。

  四、新闻中心系统数据挖掘

  随着电视台信息化过程的日益完善,提供更为详细和智能的决策支持则成为目前信息化的主要目标。浙江电视台信息中心数据仓库的建成,就为电视台进一步的信息挖掘提供了可能。我们在这个数据仓库的基础上,建立了关联规则挖掘模型和判定树归纳分类模型,并利用最小二乘法建立新闻稿件数量预测模型。尽管由于时间关系没有具体实现,但为今后的研究和实施打下了良好的基础。

  新闻中心内部数据库比较庞大,新闻种类很多,这些新闻种类之间有没有什么联系呢,工作人员查阅审批这些新闻工作量很大,如果我们能找出各新闻种类之间的联系,就可以把相关内容的新闻归为一类,派一个人管理,提高工作效率。而且,若我们知道了某类新闻是当前的热点,那我们就可以挖掘与这类新闻关联的新闻,多报道一些相关联的新闻,同样能提高收视率。要做到这些,就要使用关联规则的挖掘。

  定义:包含k个项的项集称为k项集。项集得出现频率是包含项集的事务数,简称为项集的频率、支持计数或计数。如果项集满足最小支持度,则称它为频繁项集(frequent itemset )。 频繁k项集的集合通常记为Fk。

  Apriozi性质:频繁项集的所有非空子集都必须是频繁的。如果项集F不满足最小支持度阀值min_sup,则F不是频繁的,即P (F)

  (1)连接:为了通过Fk-1,找到Fk,先把Fk-1与自己连接产生候选k项集的集合,记为Ck。设L1和L2是Fk-1中的项集。记号Li[j]表示Li的第j项。执行连接Fk-1>< Fk-1,加果它们前(k-2)项相同,Fk-1是可连接的。连接L1和L2产生的结果项集是L1[1]L1[2]……L1[k-1]L2[k-1]。

  (2)剪枝:Ck是Fk的超集,它的成员可以不是频繁的,但所有的频繁k项集都在Ck中。扫描数据库,确定Ck中每个候选的计数,从而确定Fk。然而,Ck可能很大,这样所涉及的计算量就很大。应用Apriori性质,如果一个候选k项集的(k-1)子集不在Fk-1,中,则该候选也不可能是频繁的,从而可以由Ck中删除。

  Apriori的候选产生——检查算法大幅度压缩了候选项集的大小;并有很好的性能。但是,它还是有两种不可忽视的开销。

  ·它可能需要产生大量候选项集。新闻中心数据库有几万条记录,即>1万个频繁1项集,则Apriori算法需要产生多达100万个个候选2项集,并累计和检查它们的频繁性。

  ·它可能需要重复的扫描数据库,通过模式匹配检查一个很大的候选集合。为发现长度为100的频繁模式,如{a1,...,a100},它必须产生多达几万亿个候选。

  解决方法:将提供频繁项集的数据库压缩到一颗频繁树(F树),但仍保留项集关联信息;然后,将这种压缩后的数据库分成一组条件数据库,每个关联一个频繁项,并分别挖掘每个数据库。

  使用频繁模式增长方法,重新对例1的事务数据库进行挖掘。

  数据库的第一次扫描与Apriori相同,导出频繁1项集集合,并得到它们的支持度计数。设最小支持度计数为2。结果集记为F。这样,F=[L2:7,L1:6,L3:6,L4:2,L5:2]。

  构造FP树如下:首先,创建树的根结点,用“null”标记。第二次扫描数据库D。每个事务中的项按L中的次序处理(即按递减支持度计数排序)并对每个事务创建一个分支。例如,第一个事务“T100: L1, L2, L5”,按L的次序包含三个项{L2,L1,L5 },导致构造树的第一个分支到<(L2:1),(L1:1),(L5:1)>。该分支具有三个节点,其中,L2作为根的子女连接,L1连接到L2,L5连接到L1。第二个事务T200按F的次序包含项L2和L4,它导致一个分支,其中,L2连接到根,L4连接到L2。然而,该分支应当与T100已经存在的路径共享前缀,这样,将节点L2的计数增加1,并创建一个新节点(L4: 1),它作为(L2: 2 )的子女链接。一般,当为一个事务考虑增加分支时,沿共同前缀上的每个节点的计数增加1,为跟随在前缀之后的项创建节点并连接。

期刊VIP网,您身边的高端学术顾问

文章名称: 数据挖掘技术电视台新闻中心应用研究

文章地址: http://www.qikanvip.com/xwcb/13475.html