线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

数据库管理系统8篇

时间:2022-06-09 20:40:15

数据库管理系统

数据库管理系统篇1

关键词:关键词:数据库管理系统数据库安全模型安全性数据库安全数据库中间件(DBSAPI)

中图分类号:TP393.08    文献标识码:A    文章编号:

    1. 访问控制模型

    访问控制模型是从访问控制的角度描述安全系统并建立安全模型的方法。主体依据某些控制策略或权限对客体本身或资源进行的不同授权访问,称为访问控制,访问控制的三要素为主体、客体和控制策略,它的内容则包括认证、控制策略实现和审计。目前,访问控制模型可分为自主访问控制(Discretionary

Access Control)、强制访问控制(Mandatory Access control)和基于角色的访问控制(Role Based Access

Control)。

    自主访问控制模型(DAC)的特点是:允许合法用户以用户或用户组的身份访问规定的客体并阻止非授权用户访问客体。DAC的主要表现形式为目录式访问控制、访问控制表、访问控制矩阵和面向过程的访问控制。DAC的优点是简单易操作,缺点是安全性较低。这是由DAC的特点导致,因操作系统无法区别哪种修改是用户的合法操作还是病毒或黑客的非法操作,所以系统容易受到病毒感染和黑客攻击。

    强制访问控制模型(MAC)的特点是:系统对访问主体和受控对象实行强制访问控制,系统先根据事先分配的安全级别属性对访问主体和受控对象的安全级别属性进行比较,然后决定其是否可以进行访问。由于MAC模型采用分级安全标识,从而实现了信息的单向流动,其最大的优点是有效地防止机密信息向下级泄漏及有效地保护数据的完整性。但缺点是使用不灵活,工作量大且管理不便,由于MAC模型过于强调保密性,因此其应用范围也受到限制。

    基于角色的访问控制模型(RBAC)的特点是:将访问权限于角色对应联系起来,通过分配给用户的适当角色,使用户与访问权限相联系,即在RBAC中,角色的作用类似于中介,主体与客体的联系通过中介来沟通。RBAC的优势在于它将数据资源访问许可封装在各种角色中,不同的角色对应不同的用户,角色或用户可以灵活地转换变化,而且RBAC也非常贴近日常生活。

    2. 数据库安全操作

    2.1 数据库驱动程序的安全扩展

    结构化查询语言的英文缩写是SQL。在数据库中的存取接口上,可使用扩展标准的SQL语言,执行对象定义、数据操纵、权限管理、流程控制等操作,从而实现对数据库中机密信息的加密和完整性保护。实际工作中,对于关系数据库的扩展操作,通常选用SQL DDL和SQL DML语言,同时,通过 ODBC、IDBC、BDE等数据库程序控制存取数据库中的表格、记录和字段,进一步对用户操作方面进行日志记录和审计,从内部加强关系数据库的存储和存取安全。这种方式的好处是简便易行,并且不会对数据库系统的基本性能造成大的改变。

    当进行安全扩展时,在常规数据库驱动程序中增加审计日志管理、完整性验证、密钥管理和数据加解密安全扩展模块,例如,数据库审计日志和存储加密密钥等与安全相关的信息,从而提高数据库的安全性。同时,增加加密算法设置、更新和主密钥设置等安全属性,进一步提高SQL语句的安全性。

    2.2 数据库安全数据视图

    标准的SQL Server 数据库安全模型由用户、SQL Server 登录、权限和基本表组成,其安全认证通过数据库对用户所输入的帐号和口令进行确认,它包括确认用户的帐号是否有效、能否访问系统、能够访问哪些数据等。此安全模型的特点是将权限赋予表,用户在需要查询及更改数据时,直接对表进行存取,只要用户有对表的Select权限,便可以检索表中所有的信息。然而,大多数数据库中的数据是非常机密或涉及个人隐私的,这就要求对信息本身划分为不同的保密级别,例如国家机密、商业秘密和个人隐私等就不能简单地划分为公开和保密两类,而是需要更细致的分类,可细分为多级保密级或不同的保密级。在多级保密系统中,不同的保密级别被赋予不同的数据项,再根据数据项的不同细分项,给存取本数据项的操作赋予不同的级别。SQL Server通用安全模式显然不能将数据项细分,这是因为用户有对表的Select权限,可直接存取存储数据的数据库表。采用基于视图的数据库安全模型是解决问题的方法之一。在SQL中,把传统的关系模型中的子模式称为视图(VIEW),视图是从若干基本表和其他视图构造出来的表。基本表为“实表”,是实际存放在数据库中的表。视图则称为“虚表”。创建一个视图时,只把视图的定义存储在数据词典中,而不存储视图所对应的数据。在关系数据系统中为不同的用户定义不同的视图,对无权存取这些数据的用户,通过视图机制,把要保密的数据隐藏起来,这种方法是实现视图并只授权访问视图。若使用该方式,用户只能访问在生成视图时返回的数据。视图机制使系统具有数据安全性、数据逻辑独立性和操作简便等优点,视图不仅可以简化用户对数据的理解,也可以简化他们的操作。那些被经常使用的查询可以被定义为视图,从而使得用户不必为以后的操作每次都指定全部的条件。视图和存储过程,就好像一座架设在用户与底层表之间的桥梁,用户的操作只能针对视图和存储过程进行,而无法直接访问底层表。

    3. 数据库中间件(DBSAPI)的应用

    数据库中间件是连接用户和底层数据库之间的系统软件或服务程序,主要用于屏蔽异构数据库的底层细节问题,是客户与后台的数据库进行通讯的桥梁。中间件可减少对数据的直接读取,能对数据起到一个缓冲作用,安全且高效。当客户发出对某个数据库的SQL请求时,依次进行语法词法分析、加密字典和检索访问控制,再根据加密定义和访问控制进行相关操作,然后提交给DBMS做数据提取处理;即由数据库中间件搜索匹配的数据库连接,并将SQL请求转发给对应的数据库服务器,然后对数据库进行操作。这种方式访问数据库,最大的好处就是安全性,因为中间件的服务是定制的,应用程序只能通过中间件接到数据库。所以,应用程序无法做中间件服务之外的事情。只要将所需的应用逻辑写在中间件中,就可以保证数据的安全性。

参考文献:

数据库管理系统篇2

关键词:SQL Server数据库系统;程序总体设计;功能分析;流程图;数据流建立

中图分类号:TP392 文献标识码:A 文章编号:1674-1723(2012)09-0176-03

随着计算机技术的飞速发展及计算机科学的日渐成熟,计算机强大的功能已为人们深刻认识,计算机的应用已经普及到工作和生活的各个领域,并发挥着越来越重要的作用,给我们的生活带来了极大的便利。这也使人们对利用计算机提高工作效率及可操作性有了更多的要求。利用ASPNET数据库技术建立信息管理用户平台系统,提高数据管理效率便是其中的应用之一。该系统直接面向管理员和普通用户,采用可视化界面面简单明了,普通用户均可以完成相应的数据

操作。

本论文旨在介绍利用SQL Server数据库系统实现学生信息管理的集成化、信息化和自动化功能,而总体任务的实现是建立在对系统正确的需求分析基础之上的。管理系统开发的起点是需求分析,这是整个系统开发过程中最重要的一步,它决定着开发的成败。

一、数据库开发软件简介

(一)SQL Server软件简介

SQL Server 分布式查询使用户可以引用来自不同数据源的数据,而在进行这些数据引用时,会感觉它们是SQL Server 2005数据库的一部分。同时,分布式事务还将保证任何分布式数据更新的完整性。同样,复制可以使用户维护多个数据复本,同时还会确保每个单独的数据复本保持同步。可以将一组数据复制到多个移动的脱机用户,此时,这些用户能够自主地进行工作,然后再将他们所做的所有修改合并到服务器。另外,SQL Server关系数据库引擎能够充分保护数据的完整性,而且还可以将管理和修改数据库用户的开销减到最小。另外,SQL Server2005对联合服务器、索引视图和大型内存等功能的支持,使SQL Server 2005企业版可以升级到最大Web站点所需的性能级别。

(二)其他配套软件简介

IIS是Internet Information Server的缩写,它是微软公司主推的Web服务器。在Windows 2005安装光盘中就包含IIS5.0。IIS与Windows NT Server完全集成在一起。所以用户能够利用在Windows NT Server和NTFS(NT File System,NT的文件系统)内置的安全特性,建立强大、灵活而安全的Internet或Intranet站点,能让您在企业内部网络或广域网络上,轻松共享文件和资讯。简介

目前能支持3种语言,C#,Visual 和。C#是微软公司专门为.NET量身定做的编程语言,它与.NET有着密不可分的关系。C#的类型就是.NET框架所提供的类型,C#没有类库,使用.NET框架所提供的类库。另外类型安全检查、结构化异常处理也都是交给CLR处理的。因此,C#是最合适开发.NET应用的编程语言。

二、数据库系统功能设计

根据用户调查信息,学生信息管理系统的基本流程是学生将基本信息交到教务处,再由管理员对学生的学籍信息及基本信息进行录入及编辑。并且对学生的课程进行设定,录入学生成绩信息并进行管理。

这样,根据学生信息的基本流程的分析,得到该系统的主要应具有的基本功能,可以看出,一个典型的学生信息管理系统至少应该包括以下基本功能:

(1)学生基本信息管理:提供对学生数据的录入、修改、删除等功能。

(2)系统基本设置信息管理:对院系、学生的教师、课程及班级信息维护功能。

(3)成绩信息管理:对学生成绩进行录入、修改及删除,学生补考成绩的编辑,等功能。

(4)学生学籍信息管理:提供对学生的学籍信息的编辑及休学和退学的管理等功能。

(5)教务公告栏信息管理:提供对学生的教务公告信息的编辑及休学和退学的管理等功能。

(6)安全保密需求。为完善系统的管理功能,增加系统用户管理功能,包括系统用户的数据增加、删除和修改。所有普通用户,只能运行系统分配的功能;系统管理员能够运行系统所有功能,从而保证系统数据安全。

三、数据库系统业务流程分析

业务流程图是一种描述系统内各单位、人员之间业务关系、作业顺序和管理信息流向的图表,利用它可以帮助分析人员找出业务流程中的不合理流向。

为了调查管理业务流程,调查人员应顺着原系统信息流动的过程逐步地进行,内容包括各环节的处理业务、信息来源、处理方法、计算方法、信息流经去向、提供信息的时间和形态(报告、单据、屏幕显示等)。

从业务流程图可以看出该学生信息管理系统主要有以下几项管理功能,如图1所示:

录入信息:学生将全部个人信息上报给教务处,教务处通过整理将数据交给管理员,将学生信息全部录入并保存到相应的数据库。将在学生信息录入的同时,给予学生查看个人信息及选择选修课的权力。以及教务处会下发教务通知,并录入通知表中。

输出信息:学生通过个人身份查看学生自己的各项信息。

统计信息:统计员根据学生信息库与交费台帐定期对学生交费情况进行汇总与统计也可以进行交费信息的随时查询。

图1 系统业务流程图

数据流图描述:学生信息管理系统的数据流图是根据学生信息的数据流程进行的分析,对现有的资料进行处理,其中有学生学籍信息的管理、学生成绩信息管理、系统信息设置管理和教务通告管理,处理完的数据进行浏览和打印。

数据库管理系统篇3

关系数据库系统作为软件企业核心的数据处理系统,不仅在我国取得了十分广泛的应用,而且对我国信息化建设发展具有重要的作用与意义。而数据字典系统作为保证关系数据库系统正常运行的最基础软件,在很大程度上影响着关系数据库系统的运行状况具有重要影响。而本文笔者将对关系数据库系统的数据字典系统进行深入的分析与研究。

【关键词】关系数据库 管理系统 数据字典 研究

作为关系数据库系统功能实现的最核心软件,数据字典系统的设计与实现是十分重要的。只有做好数据字典系统的设计,才能有效的保障关系数据库系统的正常、稳定运行。本文将对关系数据库系统中的数据字典系统进行分析与研究。

1 数据字典物理存储

1.1 数据字典的定义

数据字典的一个重要作用就是提供最终用户数据库所有的信息,在物理存储上就采用跟其他用户表一样的实现,提供统一的接口。而数据字典的主要作用还是提供给DBMS自身使用,在实现上还跟整个数据库的结构功能相关。

1.2 数据字典的逻辑功能

具体来说,关系数据库中的所有数据信息与关联都与数据字典有着十分紧密的联系。数据字典具有着对关系数据库中的所有对象进行定义的逻辑功能,除此之外,数据字典还可以对关系数据库中的序列值进行默认、对数据库中的各种信息进行约束、对数据库中的用户信息进行存储和统计、对数据库中的用户权限进行分辨,并且还可以对数据库中的各种信息的定义以及它们之间的关联进行操作与辨别。

由于关系数据库之中的各个对象之间存在着较强的关联性,当用户对某一对象进行删除操作时,往往会由于该对象与其它对象之间的关联程度与类型不同而产生一定的影响。例如数据库用户在PRLMARY KEY上建立起一个unique index文件,而这个unique index文件的主要功能就是帮助PRLMARY KEY实现其自身的功能任务。而由于PRLMARY KEY是依附在一个数据表中的,当删除表或是表中的相关信息有所变动时,依附于这个表存在的PRLMARY KEY中的unique index里的信息也会相应的被删除或有所变动。而数据字典负责的功能就是将关系数据库中发生的这些关联信息与操作完整的记录和保存下来。通常来说,关系数据库中的所有这些关联对数据库的用户都是公开透明的,而另一种情况就是数据库用户为了方便自己的操作或是其它因素,在对数据库中的对象进行删除操作时需要加上由用户自己设定的关系语句才能实现删除操作,当此删除操作实现时,与该对象有着密切关联的其它信息也会一并被删除。

1.3 物理记录的存储格式

关系数据库中的数据字典与用户数据都是以表的形式被记录保存在关系数据库的物理文件中的,并且关系数据库管理系统中有着多种物理存储格式,每一种物理存储格式都有着各自不同的特点,相互之间具有较大的差别,而这都是由于关系数据库管理系统中并发模式类型的不同造成的。现阶段,我国的数据库管理系统将加锁模型与多版本模型作为最为主要的两种并发模型。其中加锁式并发模型的特点是记录格式简单、无需版本信息就能实现,如SQL Server并发模型。而多版本并发模型主要有Oracle数据块并发模型。该种并发模型不仅需要用到物理记录来对数据库中的版本信息进行记录,而且还需要物理格式的帮助来实现对数据库系统的并发控制及相关的事务处理,比较复杂。

2 数据字典内存表示

2.1 CACHE作用

关系数据库管理系统能够通过对数据字典中的信息数据进行读取来获得数据用户以及数据库中的对象与存储信息,当数据库用户需要对某些数据进行查询和相关的操作时都需要利用其所发出的SQL语句来对数据字典中的信息进行查询,查询频率非常高。现阶段,我国的数据库管理系统主要由两部分组成,即CACHE与RELCACHE。其中CACHE主要负责的是对数据库管理系统中的表进行存放。在该部分中,一个系统表能够利用ID查询、NAME查询与主键查询中的任意一种方式进行查询,除此之外,用户也可以通过部分键对该系统表进行查询。当查询操作完成后,关系数据库系统会根据数据字典的分析最终弹出用户需要寻找的表格。

而RELCACHE部分的每一项都是一个RELATION结构,该结构对此结构中的所有数据信息与关联进行了记录与保存。并且此结构能够将关系数据库系统中的所有与需要查询事件相关联的描述信息进行联合构造,以更好的满足数据库用户的需求,提高关系数据库管理的质量与水平。

2.2 数据库的启动与CACHE的初始化

使关系数据库能够启动并发挥其应有的作用,操作人员至少要做好以下三个步骤,即将一个实例启动,之后对数据库系统进行装配操作,第三,将数据库系统打开。使数据库的CACHE系统得以初始化的方式有两种:第一种,在数据库系统建立时进行CACHE的初始化,主要负责对数据库系统的内存进行分配;第二种,数据库系统已经建立完成后在启动时进行初始化操作,此时,内存已经分配完毕,用户只要正常进行启动操作就可以完成CACHE的初始化。

3 结束语

本文主要对关系数据库管理系统的数据字典程序进行了分析介绍与研究,希望能够进一步推动我国关系数据库系统的管理质量,促进关系数据库系统的进步。

参考文献

[1] 程阳.关系数据库管理系统的一种简易的数据存储与查询模块的设计与实现[D].华中科技大学(硕士学位论文),2012.

[2] 冯玉才,李东,王元珍,曹忠升.一种移动数据库管理系统的体系结构[J].计算机研究与发展,2011,38(5): 620-625.

[3]何新贵,唐常杰,李霖.特种数据库技术――数据库技术丛书之一[M].北京:科学出版社,2010.

数据库管理系统篇4

构件仓库;

数据挖掘;

反馈;

决策树  作者简介:陈文,23岁,男,四川南充人,软件工程师,重庆西南大学计算机与信息科学学院2005级硕士研究生,研究方向:软件测试,软件复用。 1  引言   软件构件技术是软件复用的一种重要手段,是近年来软件复用研究的热点,目前出现了大量的基于构件的应用软件开发,取得了良好的效果。要使用基于构件的软件开发技术,发挥构件在软件重用方面的优势,就必须要有支持整个软件生命周期并包含有大量可用构件的构件库系统,有效的构件管理和高效的构件查询是构件库系统成功的关键。本文研究的重点是将数据仓库,数据挖掘技术应用到构件库系统中,为构件库管理员提供切实有效的构件管理方法和为用户提供高效的构件查找方法和构件选择的辅助决策支持。2  数据仓库与数据挖掘技术2.1  数据仓库技术   著名的数据仓库专家W.H.Inmo在其著作《Building Data WareHouse》一书中给出了如下的数据仓库的定义:数据仓库是面向主题的(Subject-Oriented),集成的(Interated),时变的(Time-Variant),非违约的(Non-volatile)一系列用于管理和决策制定的数据集。   面向主题是数据仓的重要特征,这是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准。基于主题组织的数据,被划分为各自独立的领域,每一个领域有自己的逻辑内涵,互不交叉,数据只是为具体处理而组织在一起。传统的E-R型数据模式能较好的执行联机事务处理(OLTP),但不适应决策支持分析,而数据仓库则是为决策管理提供支持信息,根据业务需求从用户的角度基于主题来组织数据,并形成相应的数据视图,汇总表等,因此适于联机分析处理(OLAP)。    数据仓库的第二个特点是集成化,数据从面向应用的操作环境中,提取到数据仓库中时,都要经过集成化,统一原始数据中的所有矛盾如命名冲突,数据结构转换等,最终达到:一致的命名,变量度量,编码结构,物理属性等。    数据仓库的另一个特点是非违约性。因为数据仓库中的数据是历史数据,数据经集成进入数据仓库后,一般不需要改变。针对数据进行的基本操作只是装数据和访问数据,因此不存在传统数据库中的数据恢复,数据同步,修复死锁等复杂问题.2.2  数据挖掘技术概述   数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。3  当前构件库系统应用中的困难   随着构件库系统的发展,当构件数目逐渐增多时,用户在查询和选取构件时会碰到以下一些困难:  (1)在查询的过程中,可能有多个满足用户查询条件的构件,如何快速有效地从众多的候选构件中,准确的判断并选取所需的构件,这是一个复杂的决策过程,一般都依赖于用户的复用经验,以及对构件的理解和主观判断。  (2)通常用户都是通过刻面、属性、关键词、关系等表达式, 根据所需构件的特征,进行构件的查询。然而访问构件的用户具有不同的层次,可能不熟悉构件的刻面分类模式,对构件的理解比较困难。  (3)用户查询前并没有一个明确的目标,只是想通过查询构件库,找到能够利用和复用的构件,因而,如何通过构件的复用历史和其它用户的览胜经验,为用户提供一定程度的复用帮助是很必要的。  (4)对需求规约、设计、模式、测试计划等文档知识的构件复用属于间接复用,需要复用者首先进行分析和理解。在大多数复用情况下,对构件的复用是白盒复用,也是就根据构件复用者的反馈,对构件进行适应性修改。如何跟踪软件复用的经验和构件的使用历史,辅助用户选取相应的分析,设计及改动最小的构件是关键。   综上所述,由于当前的构件描述多是基于构件某一方面特征,如构件接口、构件属性、运行环境等进行描述,而缺乏对构件的功能及非功能属性的精确的,形式化的语义描述,这将导致某一候选构件与需求构件在构件的描述匹配中完全一致,但该构件并不一定能完成需求的功能。例如,用户试图寻找一个计算两数相加输出和的加法构件,但候选的是一个计算两相乘输出积的乘法构件,需求构件与候构件在构件接口参数描述、环境依赖等方面完全匹配,但功能上却大相径庭。因为缺乏非功能属性上描述,当前的构件匹配也存在着即使候选构件与需求构件在功能上一致但由于在非功能属性上不合要求仍不能完成用户需求的问题。特别是当用户应用程序在总体的非功能属性上,例如用户界面、程序安全性、适时性、可靠性等,有特殊要求时,构件的非功能属性一致性就更加重要。   构件描述必须具有完全性、完备性、易解理性。构件描述完全性指能够描述构件各个方面的特性,不存在构件的某一特性不能描述的情况,完备性是指所有的构件都能描述,不存在某一构件不能描述的情况。理论的构件描述方法是语义描述,即以形式化手段描述构件的功能或行为语义,系统可以通过定理证明及基于知识的推理过程来寻找语义上等价或相近的构件。遗憾的是这种基于语义的描述方法涉及许多人工智能难题,目前难于支持大型构件库工程实现。当前基于不同构件模型的较为成功的构件描述语言CORBA IDL,DCOM IDL和EJB IDL以及被认为是最好的通用构件描述语言XML,它们都能够描述构件多方面的特性,并且具备编译和浏览工具的支持,但是在描述构件接口语义和构件间复杂的交互协议方面缺乏进一步的支持,因此都不能很好的满足构件描述的完全性、完备性、易理解性三个方面的要求。例如CORBA IDL不能描述符合CORBA标准以外的构件,也不能精确的描述构件的功能及非功能性特点。因此基于当前的各类构件描述语言,它们的描述只能让用户获得构件某些方面的,抽象的认识,尚不能让用户对整个构件有全面清楚的认识,故势必影响构件选取,构件复用。而构件的复用历史,早期用户对构件的使用结果,使用评价,修改意件等复用经验会对后期用户对构件的认识,选取决策起到重要的辅助作用。因此有效的管理构件的复用历史记录,先期用户的复用反馈信息非常重要。4  基于数据仓库技术的构件管理   传统的基于联机事处理理(OLTP)的E-R数据库并不适于历史数据的长期存放与管理,而数据仓库技术正是用于存放历史数据信息,并对用户提供决策支持的系统,适宜于联机事务分析(OLAP),故建立基于数据仓库技术的用户反馈信息库以支持构件的存储和检索是可行的。在用户反馈信息库中,对反馈信息进行一定程序的量化处理,主要包括七个维度:时间维度Time,制作者维度Provider,用户维Userinfo,组装维Compositeinfo,测试维Testinfo,描述维Descripinfo,评价维Valuatinoinfo;

两类反馈事实:细节事实Freedbackfact,聚集事实AggregrateFact。其多维模式如图1所示:   Feedback Fact                    图1  用户反馈为数据模式                     用户反馈通过收集工具捕获用户提交的反馈信息,并对用户反馈信息进行筛选、分类,集成存入数据仓库。由于用户反馈库采用多维数据模式,当需要查询和分析的主题不断增加时,可以通过为新增的主题建立相应的事实表和维表(可以共享原来的很多维表),数据库结构不变,集成到原来的信息库中,逐步完善软件企业信息仓库。这是符合数据仓库开发的原则,即先从某一主题入手不断加以完善。5  基于决策树的分类发现在软件构件查询中的应用    数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;

特征型知识,反映事物各方面的特征知识;

差异型知识,反映不同事物之间属性差别的知识;

关联型知识,反映事物之间依赖或关联的知识;

预测型知识,根据历史的和当前的数据推测未来数据;

偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。至于发现工具和方法,常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。本文在基于前述建立的构件仓库上,使用决策树分类法对构件进行检索。

5.1  决策树分类方法   分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。给出一个数据集中的一些属性,分类器可以预测出某一个特定的属性。被预测的属性叫做标签(label),用于预测的其他属性叫做描述属性(descriptive attributes)。在生成分类器后,则可以利用它来对数据集中不包含标签属性的记录进行分类,标签的值可以用分类器来预测。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:(v1,v2,...,vn;

c);

vi表示字段值,c表示类别。从训练集中自动地构造出分类器的算法叫做生成器(inducer),在生成分类器后,可以利用它来对数据集中不包含标签属性的记录进行分类,标签属性的值也可以用分类器来预测。    决策树分类方法属于分类方法的一种,该方法的输入是一组带有类别标记的数据,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形为(ai=vi),基中ai 是属性,vi是该属性的某个属性值;

树的边是逻辑判断的分支结果;

多叉树(ID3)的内部节结点是属性,边是该属性的所有取值,有几个属性值,就有几条边,树的叶子节点都是类别标记。5.2  决策树方法与构件分类检索   决策树分类算法通常包括两部分:一是树的生成,开始时所有数据都在根结点,然后根据设定的标准选择测试属性,用不同的测试属性递归的进行数据分割;

二是树的修剪,就是去掉一些可能是噪音或者异常的数据。构造一棵决策树就是形成一个训练集的分类,在分类过程中完成对目标的获取策略与规则提取。   构件仓库中构件信息包构件描述信息,复用历史信息及用户反馈信息。构件描述信息如下表1所示,复用历史信息如表2所示,用户反馈信息如表3所示。 表1  构件描述信息表 构件号入库时间提供者功能描述非功能描述应用领域其它0012006-1-1微软XP升级视窗界面PC用户。。。0022006-1-2瑞星杀毒安全性好PC用户。。。0032006-1-2金算盘财务结算计算精度高金融领域。。。0042006-1-5创业软件CT机控制适时性好医疗领域 。。。。。。。。。。。。。。。。。。。。。 。。。         表2  复用历史信息表                                         构件号复用时间复用者复用结果复用领域其它0012006-11-7张三成功PC用户。。。0012006-10-2李四成功PC用户。。。0032006-7-2金软d 411      金达软件   失败财务软件公司。。。0042006-9-19创业软件部分成功医疗软件公司 。。。。。。。。。。。。。。。。。。 。。。                                 表3用户反馈信息表 构件号反馈时间反馈者复用结果复用评价修改意件其它0012006-11-9张三成功良好需要更好的易操作性。。。0012006-10-3李四成功优升级时间更短。。。0032006-7-12金软d 411      金达软件   失败差需更高计算精度及安全性。。。0042006-9-20创业软件部分成功一般更快的响应时间 。。。。。。。。。。。。。。。。。。。。。 。。。                                    构件分类模型

图2  分类模型 

数据库管理系统篇5

【摘要】:通过较为成熟的数据仓库和数据挖掘技术存储和检索构件信息。数据仓库中不仅存储了构件实体,还存放有构件的描述信息、构件的复用历史信息、构件的用户反馈信息。通过数据挖掘技术在构件仓库中查找构件,为用户提供高效、准确的构件查找和辅助选择方案,为构件复用成功提供了有效的技术保障。【关键词】构件;构件仓库;数据挖掘;反馈;决策树作者简介:陈文,23岁,男,四川南充人,软件工程师,重庆西南大学计算机与信息科学学院20__级硕士研究生,研究方向:软件测试,软件复用。1引言软件构件技术是软件复用的一种重要手段,是近年来软件复用研究的热点,目前出现了大量的基于构件的应用软件开发,取得了良好的效果。要使用基于构件的软件开发技术,发挥构件在软件重用方面的优势,就必须要有支持整个软件生命周期并包含有大量可用构件的构件库系统,有效的构件管理和高效的构件查询是构件库系统成功的关键。本文研究的重点是将数据仓库,数据挖掘技术应用到构件库系统中,为构件库管理员提供切实有效的构件管理方法和为用户提供高效的构件查找方法和构件选择的辅助决策支持。2数据仓库与数据挖掘技术2.1数据仓库技术著名的数据仓库专家W.H.Inmo在其著作《BuildingDataWareHouse》一书中给出了如下的数据仓库的定义:数据仓库是面向主题的(Subject-Oriented),集成的(Interated),时变的(Time-Variant),非违约的(Non-volatile)一系列用于管理和决策制定的数据集。面向主题是数据仓的重要特征,这是与传统数据库面向应用相对应的。主题是一个在较高层次将数据归类的标准。基于主题组织的数据,被划分为各自独立的领域,每一个领域有自己的逻辑内涵,互不交叉,数据只是为具体处理而组织在一起。传统的E-R型数据模式能较好的执行联机事务处理(OLTP),但不适应决策支持分析,而数据仓库则是为决策管理提供支持信息,根据业务需求从用户的角度基于主题来组织数据,并形成相应的数据视图,汇总表等,因此适于联机分析处理(OLAP)。数据仓库的第二个特点是集成化,数据从面向应用的操作环境中,提取到数据仓库中时,都要经过集成化,统一原始数据中的所有矛盾如命名冲突,数据结构转换等,最终达到:一致的命名,变量度量,编码结构,物理属性等。数据仓库的另一个特点是非违约性。因为数据仓库中的数据是历史数据,数据经集成进入数据仓库后,一般不需要改变。针对数据进行的基本操作只是装数据和访问数据,因此不存在传统数据库中的数据恢复,数据同步,修复死锁等复杂问题.2.2数据挖掘技术概述数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。3当前构件库系统应用中的困难随着构件库系统的发展,当构件数目逐渐增多时,用户在查询和选取构件时会碰到以下一些困难:(1)在查询的过程中,可能有多个满足用户查询条件的构件,如何快速有效地从众多的候选构件中,准确的判断并选取所需的构件,这是一个复杂的决策过程,一般都依赖于用户的复用经验,以及对构件的理解和主观判断。(2)通常用户都是通过刻面、属性、关键词、关系等表达式,根据所需构件的特征,进行构件的查询。然而访问构件的用户具有不同的层次,可能不熟悉构件的刻面分类模式,对构件的理解比较困难。(3)用户查询前并没有一个明确的目标,只是想通过查询构件库,找到能够利用和复用的构件,因而,如何通过构件的复用历史和其它用户的览胜经验,为用户提供一定程度的复用帮助是很必要的。(4)对需求规约、设计、模式、测试计划等文档知识的构件复用属于间接复用,需要复用者首先进行分析和理解。在大多数复用情况下,对构件的复用是白盒复用,也是就根据构件复用者的反馈,对构件进行适应性修改。如何跟踪软件复用的经验和构件的使用历史,辅助用户选取相应的分析,设计及改动最小的构件是关键。综上所述,由于当前的构件描述多是基于构件某一方面特征,如构件接口、构件属性、运行环境等进行描述,而缺乏对构件的功能及非功能属性的精确的,形式化的语义描述,这将导致某一候选构件与需求构件在构件的描述匹配中完全一致,但该构件并不一定能完成需求的功能。例如,用户试图寻找一个计算两数相加输出和的加法构件,但候选的是一个计算两相乘输出积的乘法构件,需求构件与候构件在构件接口参数描述、环境依赖等方面完全匹配,但功能上却大相径庭。因为缺乏非功能属性上描述,当前的构件匹配也存在着即使候选构件与需求构件在功能上一致但由于在非功能属性上不合要求仍不能完成用户需求的问题。特别是当用户应用程序在总体的非功能属性上,例如用户界面、程序安全性、适时性、可靠性等,有特殊要求时,构件的非功能属性一致性就更加重要。构件描述必须具有完全性、完备性、易解理性。构件描述完全性指能够描述构件各个方面的特性,不存在构件的某一特性不能描述的情况,完备性是指所有的构件都能描述,不存在某一构件不能描述的情况。理论的构件描述方法是语义描述,即以形式化手段描述构件的功能或行为语义,系统可以通过定理证明及基于知识的推理过程来寻找语义上等价或相近的构件。遗憾的是这种基于语义的描述方法涉及许多人工智能难题,目前难于支持大型构件库工程实现。当前基于不同构件模型的较为成功的构件描述语言CORBAIDL,DCOMIDL和EJBIDL以及被认为是最好的通用构件描述语言XML,它们都能够描述构件多方面的特性,并且具备编译和浏览工具的支持,但是在描述构件接口语义和构件间复杂的交互协议方面缺乏进一步的支持,因此都不能很好的满足构件描述的完全性、完备性、易理解性三个方面的要求。例如CORBAIDL不能描述符合CORBA标准以外的构件,也不能精确的描述构件的功能及非功能性特点。因此基于当前的各类构件描述语言,它们的描述只能让用户获得构件某些方面的,抽象的认识,尚不能让用户对整个构件有全面清楚的认识,故势必影响构件选取,构件复用。而构件的复用历史,早期用户对构件的使用结果,使用评价,修改意件等复用经验会对后期用户对构件的认识,选取决策起到重要的辅助作用。因此有效的管理构件的复用历史记录,先期用户的复用反馈信息非常重要。4基于数据仓库技术的构件管理传统的基于联机事处理理(OLTP)的E-R数据库并不适于历史数据的长期存放与管理,而数据仓库技术正是用于存放历史数据信息,并对用户提供决策支持的系统,适宜于联机事务分析(OLAP),故建立基于数据仓库技术的用户反馈信息库以支持构件的存储和检索是可行的。在用户反馈信息库中,对反馈信息进行一定程序的量化处理,主要包括七个维度:时间维度Time,制作者维度Provider,用户维Userinfo,组装维Compositeinfo,测试维Testinfo,描述维Descripinfo,评价维Valuatinoinfo;两类反馈事实:细节事实Freedbackfac t,聚集事实AggregrateFact。其多维模式如图1所示:FeedbackFact图1用户反馈为数据模式用户反馈通过收集工具捕获用户提交的反馈信息,并对用户反馈信息进行筛选、分类,集成存入数据仓库。由于用户反馈库采用多维数据模式,当需要查询和分析的主题不断增加时,可以通过为新增的主题建立相应的事实表和维表(可以共享原来的很多维表),数据库结构不变,集成到原来的信息库中,逐步完善软件企业信息仓库。这是符合数据仓库开发的原则,即先从某一主题入手不断加以完善。5基于决策树的分类发现在软件构件查询中的应用数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。至于发现工具和方法,常用的有分类、聚类、减维、模式识别、可视化、决策树、遗传算法、不确定性处理等。本文在基于前述建立的构件仓库上,使用决策树分类法对构件进行检索。5.1决策树分类方法分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。给出一个数据集中的一些属性,分类器可以预测出某一个特定的属性。被预测的属性叫做标签(label),用于预测的其他属性叫做描述属性(descriptiveattributes)。在生成分类器后,则可以利用它来对数据集中不包含标签属性的记录进行分类,标签的值可以用分类器来预测。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可为:(v1,v2,...,vn;c);vi表示字段值,c表示类别。从训练集中自动地构造出分类器的算法叫做生成器(inducer),在生成分类器后,可以利用它来对数据集中不包含标签属性的记录进行分类,标签属性的值也可以用分类器来预测。决策树分类方法属于分类方法的一种,该方法的输入是一组带有类别标记的数据,构造的结果是一棵二叉树或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形为(ai=vi),基中ai是属性,vi是该属性的某个属性值;树的边是逻辑判断的分支结果;多叉树(ID3)的内部节结点是属性,边是该属性的所有取值,有几个属性值,就有几条边,树的叶子节点都是类别标记。5.2决策树方法与构件分类检索决策树分类算法通常包括两部分:一是树的生成,开始时所有数据都在根结点,然后根据设定的标准选择测试属性,用不同的测试属性递归的进行数据分割;二是树的修剪,就是去掉一些可能是噪音或者异常的数据。构造一棵决策树就是形成一个训练集的分类,在分类过程中完成对目标的获取策略与规则提取。构件仓库中构件信息包构件描述信息,复用历史信息及用户反馈信息。构件描述信息如下表1所示,复用历史信息如表2所示,用户反馈信息如表3所示。表1构件描述信息表构件号入库时间提供者功能描述非功能描述应用领域其它00120__-1-1微软XP升级视窗界面PC用户。。。00220__-1-2瑞星杀毒安全性好PC用户。。。00320__-1-2金算盘财务结算计算精度高金融领域。。。00420__-1-5创业软件CT机控制适时性好医疗领域。。。。。。。。。。。。。。。。。。。。。。。。表2复用历史信息表构件号复用时间复用者复用结果复用领域其它00120__-11-7张三成功PC用户。。。00120__-10-2李四成功PC用户。。。00320__-7-2金软d411金达软件失败财务软件公司。。。00420__-9-19创业软件部分成功医疗软件公司。。。。。。。。。。。。。。。。。。。。。表3用户反馈信息表构件号反馈时间反馈者复用结果复用评价修改意件其它00120__-11-9张三成功良好需要更好的易操作性。。。00120__-10-3李四成功优升级时间更短。。。00320__-7-12金软d411金达软件失败差需更高计算精度及安全性。。。00420__-9-20创业软件部分成功一般更快的响应时间。。。。。。。。。。。。。。。。。。。。。。。。构件分类模型

图2分类模型

图3基于ID3算法生成的决策树利用ID3算法生成的决策树可以用一组IF…THEN…ELSE…的形式表达。例如:IF(应用领域=金融领域AND用户反馈=总体良好AND复用历史)=200次)THEN(评价=推荐)以上只是对构件仓库中的构件决策树的简单介绍,实际应用中还包括更多构件特征信息如:构件接口,依赖环境,非功能属性等,这样就能为用户提供更全面更仔细的描述,确保对用户选择构件的辅助决策作用的有效发挥。最后还应对决策结果进行验证和评价。结果的验证和评价是数据挖掘中不可或缺的环节。这是一个反复实验的过程,可以运用构件库中其它的样本进行验证,也可以选择新安的样本集进行评价,直到复得出用户满意的结果为止。6结束语随着构件化软件开发的普及,构件库系统作为支持软件开发的基础设施的作用将越来越重要,构件的有效管理和高效检索直接关系到基于构件的软件复用的成功。数据仓库技术适宜于存放构件及构件复用历史信息这类变化较少,相对稳定的数据;同时基于数据仓库的数据挖掘技术也有较为成熟的技术。本文尝试将数据仓库,数据挖掘技术就用于构件库管理系统,使用数据仓库存储构件信息,使用决策树的方法进行构件挖掘,辅助用户进行构件的检索和选取,为构件复用成功提供了有效的技术保障。参考文献[1]郭景峰,米浦波,刘国华.决策树算法的并行性研究[J].计算机工程,20__,28(8):77-78.[2]杨东青,唐世渭.应用的深化推动数据库技术发展.计算机科学[J],1997,24(2):15-31.[3]王希辰.数据仓库技术与可复用构件库系统研究.中国传媒大学学报自然科学版,20__,13(2):73-77.[4]徐建民,卲艳华,王静红.决策树方法在软件构件查询中的应用研究.微机发展.20__.14(9):125-128.[5]徐建民,卲艳华,王静红,刘进波.决策树分类方法在软件构件检索中的辅助决策支持研究.计算机应用.25(5):120-125.[6]朱明.机器学习与数据挖掘:方法与应用[M].北京:电子工业出版社,20__,19(2):59-64.

数据库管理系统篇6

企业知识库会使组织内所包含的信息和知识实现有序化。建立企业知识库,势必要对原有的信息和知识进行一次整体的收集和整理,遵循一定的分类原则进行分类,并且提供必要的检索手段。这样信息和知识就可以从原来的混乱状态变得有序化,也就为信息和知识的检索提供了便利条件,为日后的使用打下基础。

企业知识库可以加快知识和信息的流动,有利于知识共享和交流。知识和信息实现有序化之后,能够大大缩短寻找和利用的时间,从而加快了流动。此外,通过企业内部网络的应用,可以使企业内外发生的事情在极短的时间内传播开来,也就使得新信息和知识获知速度加快。

企业知识库还有利于实现组织的协作和沟通。企业知识库可以将人员在日常工作中提出的各种建议进行收纳。人员在工作中解决了某个难题或者发现解决问题的更好方法后,都可以将这些建议和方法交由企业内的评审小组。通过评审小组的审核工作,将最好的建议纳入到知识库中。

企业知识库可以帮助企业实现对专业知识的有效管理。企业内的人员流动是不可避免的,当有人员离开自己之前所在的岗位时,往往他们会掌握大量的宝贵信息,岗位发生变动也就会有大量的专业知识随之受到损失。这时,企业知识库的作用就是对这些宝贵的专业信息进行保存,以方便新的人员随时利用。先进知识库管理系统是以先进的数据库设计为基础的,本文介绍了先进的企业知识库管理系统数据库的设计理念。

1 系统设计原则

随着Internet技术的发展,B/S结构应用程序开发已经成为必然,知识库管理系统也将采用Web技术来实现,因为这将有助于提高系统的扩展能力,简化维护工作。

本系统将采用Java开发的B/S模式的体系结构,它是一种开方式的操作系统,Java语言作为新一代网络应用平台的开发工具,以其良好的可移植性在本系统开发的过程中受到了广泛应用。体系结构如(图1)所示,用户首先通过网络浏览器登陆远程中心的站点服务器,通过身份验证后,再根据远程中心提供的前台页面,采用一定的过滤器,调用接口函数,对数据库进行各种操作,然后将结果以html的形式返回给用户。此外,在本系统的基础上进行二次开发,能得到设备故障诊断系统等等。

以知识管理为核心,丰富知识相关的各种信息,使其管理细到参数级,为知识管理细化创造条件,也可以为各项知识审查工作的细化对比分析提供条件。

知识库综合查询是围绕知识为中心,从设备出发查询与该设备相关的各种台账及检修项目,如设备的定期检验,设备定级,设备的预防性检验,大小修,材料领用及费用,库存,技术监督,从设备缺陷到工作票及操作票的一系列活动及各种统计等,使查询工作变得方便、快捷、准确和及时。

2 数据库建模方法

数据库是知识库的核心,在企业知识库管理过程中,由于其分类复杂,数据量大,数据库相对复杂,如何构建高效率的数据库系统是一个重要的设计课题。将需求分析获得的信息加工成具有特定逻辑关系的数据结构,这样的过程被称为数据库建模。我们提出了对象模型到关系模型的转换原则,即利用面向对象设计的结果,使用基于E/R的数据库建模工具,生成关系数据库中的数据表结构。

2.1 面向对象的数据库建模

面向对象分析与设计的结果将产生三种结果集:对象关系图、对象层次模型、对象定义表[1]。其中对象关系图是用来表示基于属性的对象之间的关系;对象层次模型描述对象之间的继承关系;对象定义表给出对象的精确定义(包括属性及其操作方法)。

数据元素是构成信息的原料,如人员编码(rybm_code)、部门编码(dep_code),文档编码(document_ code)等。因此找出构成用户视图的基本数据元素,并进行必要的定义,同时确定每张视图由哪些基本视图构成也是一项十分重要的工作。数据元素为定义对象属性提供依据,定义后即形成了数据字典,它是进行数据概念设计((E_R关系设计)的原料。

合理的数据元素命名可增加系统的可读性,有利于人员之间的相互交流以及程序的维护扩展,命名规则如下。

(1)数据元素应由几个基本部分组成:定义属性十基本属性+扩展属性,三者之间以下划线区分,基本属性允许单独存在;

(2)数据元素的名称能用通用简洁英语表示的尽量用英语,实在复杂,也可以采用汉语拼音。如数据元素“文档编码”:document_no。

数据概念模型设计参照需求分析阶段利用面向对象的分析方法产生的对象关系图来进行,即从对象集中抽取实体,从定义对象的属性中抽取出系统设计的基本数据元素,从对象的结构中抽取实体间的关系。流程分析和数据概念模型设计是统一在一个辅助设计平台PowerDesigner上进行的。

数据元素定义后,就可以参照对象模型进行数据模型的概念设计,即在PowerDesigner的逻辑模型设计环境下对表进行进一步的精细加工:定义扩展属性、各种约束定义、触发器定义等,将概念模型转化为数据的逻辑模型,转换的规则如下。

(1)概念模型中的实体转换成表;

(2)实体属性转换成表的列;

(3)父表中的标志属性转换成主键;

(4)由子实体生成的表将继承其父实体所有的属性。

数据库数据模型的建立依赖于对数据状况的分析和研究,设备的数据主要是字符串型、数值型、图像等。字符型数据用以描述设备的名称、型别、特征、结构状况与生产使用情况等,通常字符型数据是不需要进行计算的项目。数值型数据用以描述设备的几何特征、性能参数与工作状况等,通常是要进行计算的项目,而图像可以形象、生动、逼真的描述设备的结构形式和特点。

2.2 知识目录分类表

从结构的角度看,知识目录分类是递推的分级结构,应当提供无限层级的目录结构设计,可以适应各种复杂的知识分类要求,对整个企业的知识信息进行统一的架构和分层级的维护。同时应提供快捷的移动、合并等功能,帮助知识管理员轻松的进行栏目的调整与优化。

知识目录分类是树型结构的。下面我们比较两种树型数据结构的实现,首先是邻接列表模型(adjacency list model)。

这种模型我们经常用到,很多的教程和书中也介绍过。我们通过给每个节点增加一个属性parent来表示这个节点的父节点从而将整个树状结构通过平面的表描述出来。根据这个原则,如表1所示。

几乎使用同样的方法我们可以知道从根节点到任意节点的路径。比如“3级子分类A1-1-1”的路径是“设备A>子分类A1>2级子分类A1-1”。为了得到这样的一个路径我们需要从最深的一级开始,查询得到它的父节点“2级子分类A1-1”把它添加到路径中,然后我们再查询“2级子分类A1-1”的父节点并把它也添加到路径中,以此类推直到最高层的“目录分类A”。这种方法很简单,容易理解,好上手。但是也有一些缺点。主要是因为运行速度很慢,由于得到每个节点都需要进行数据库查询,数据量大的时候要进行很多查询才能完成一个树。另外由于要进行递归运算,递归的每一级都需要占用一些内存所以在空间利用上效率也比较低。

现在让我们看一看另外一种不使用递归计算,更加快速的方法,这就是预排序遍历树算法(modified?preorder?tree?traversal?algorithm)。首先将多级数据按照下面的方式画在纸上,在根节点“目录分类A”的左侧写上1然后沿着这个树继续向下在“子分类A1”的左侧写上2然后继续前进,沿着整个树的边缘给每一个节点都标上左侧和右侧的数字。这样整个树状结构可以通过左右值lft,rgt来存储到数据库中,如表2所示。

这种方法不使用递归查询算法,有更高的查询效率。例如我们需要得到“某项下的所有所有节点就可以这样写查询语句:?

SELECT*FROM device WHERE lft BETWEEN num1 AND num2 ORDER BY lft ASC;

要获知一个节点的路径也很简单,如果我们想知道某节点的路径就利用它的左右值num1和num2来做一个查询:

SELECT name FROM device WHERE lft num2 ORDER BY lft ASC;

某个节点的子孙节点数目计算也很简单,子孙总数=(右值-左值-1)/2。

2.3 扩展参数属性表

如果把目录分类的所有属性都存放在表2中,势必造成数据库的大量冗余,这个问题,我们可以通过建立另外一个扩展属性表来解决,如(表3)所示:

可以看出来,这是一种一对多的方式,一个分类可以有任意多的扩展属性,我们可以提炼出一些所有分类的公共属性如名称,描述等等存放在表3中,而将一些不共有的属性放在表3中。

2.4 文档基本情况表

文档是知识库的实体,每个文档都是属于一个或者多个分类下的,我们仿照目录分类建立数据表的方式,将文档数据表也分为基本情况表和扩展属性表,可以达到很好的效果。

数据库管理系统篇7

关键词:数据仓库;元数据;体系结构;接口

1 概述

数据仓库所要管理的数据量要远远多于传统系统所管理的数据量,随着时间的推移数据仓库平台必须支持更多的数据和用户、更多的和复杂的查询处理,随着系统功能的增加,在应用接入的同时需要保持原有能力,并能够加载新应用,结合各类需求使得数据仓库系统需要支持可扩展。

在传统数据仓库设计的体系结构下,系统内部结构耦合程度高,OLAP与数据挖掘功能组件结合紧密。当前,增加数据仓库系统体系结构的可扩展性主要有两种模式:一种主要研究系统部件模块化和分层策略提高数据仓库的可扩展性。如基于Web的数据挖掘算法与数据仓库的接口设计[1],将算法库模块化并解决了算法与数据仓库的接口问题;基于Agent的三层数据仓库系统体系结构的研究,将软件Agent引入数据仓库系统,增强了系统的伸缩性,拓广了数据仓库的应用领域[2]。另一种是采用高性能软硬件、并行计算机系统结构,用可扩展的软件并行和硬件并行相结合的方法进行数据仓库的性能扩展。如采用高速缓存相关的非一致性内存访同结构,并且较好地利用I/O并行性,解决大量异构数据涌入可扩展数据}库中时系统性能问题;采用并行技术实现基于可扩展的数据集市的数据仓库系统结构[3]等。

在数据仓库系统的设计过程中,如果采用多层扩展或分层内部模块化方式实现扩展,系统中单一层模块不断增加,层内部件耦合度不断提高,降低了系统的可维护性。而采用高性能软硬件、并行解决方案,除考虑费用问题外,还需建立高性能平台。如果其中某个组件性能较弱,将会影响整个数据仓库系统,增加了数据仓库系统开发与维护的难度。

为更有效地适应数据的飞速膨胀与用户需求的不断变化,管理分布的、异构的集成环境,保持数据仓库系统层次的独立性和自主性,减轻开发与维护的负担,作者提出了基于元数据管理的可扩展数据仓库系统体系结构与接口设计方案,通过层次与模块自定义扩展提高数据仓库的可扩展性,增强系统的可扩展性和可维护性。

2 基于元数据管理的数据仓库系统

体系结构:基于元数据管理的可扩展数据仓库系统模型体系结构如图1所示,包括元数据管理层、数据存储层、数据处理层、前端应用层。随工作负载的增加,数据仓库系统需要进行功能扩展时,元数据层通过对接口文件的管理,将完成层次的增删。完成数据仓库逻辑层次与物理层次的实际扩展,保证了数据仓库系统体系结构的清晰性与可扩展性。

(1)元数据管理层

元数据管理层包括元数据获取、元数据存储、元数据服务接口、元数据管理和元数据应用等组件,在系统执行过程中完成任务接受、任务分解、系统管理、请求判断、日志记录等功能。存储的元数据包括技术元数据(Technical Metadata)和业务元数据(Business Metadata)。为实现可扩展的数据仓库系统,将元数据分为基础元数据、运行元数据和映射元数据三类,系统应用以组件形式加载,通过接口实现各层关联。

(2)数据存储层

数据存储层主要由原始数据和结果数据构成。原始数据为数据仓库中所存储的各类应用多源数据;结果数据由各类数据分析和挖掘服务计算产生。

(3)数据处理层

数据处理层中集成各类数据集成工具、多维分析工具、数据挖掘工具等,完成原始数据处理形成结果数据,为用户提供决策支持。

(4)前端应用层

前端应用层完成对用户输入参数的获取,以数据流的形式提供给诸如元数据层进行分析。本模块通过使用系统web页面获取所需数据,参数获取的方式是调用可视化系统中关于应用请求的API接口。

3 接口设计

为实现各功能组件能够访问数据仓库与增强数据仓库系统的可扩展性,需要对数据仓库各层之间的接口进行设计(图2所示)。通过接口设计对各层进行必要的规范和组织,数据仓库中每层都按照该规范和定义建立相应的模型构造,各层独立并通过接口进行交互,各层内部实现封装。系统数据传输过程从接口文件开始,需要对接口进行规范化描述,以保证接口文件的质量和数据抽取流程的正确。

(1)元数据层服务控制中心

系统以元数据层组件构成服务控制中心,实现数据仓库的可扩展性;建立模型管理库,为上层协同服务集成提供各种应用接口;构建可扩展的数据挖掘平台示范应用。元数据层的对外接口模块有数据存储层模块、数据处理处理模块和前端应用层接收模块,完成接口文件处理、权限验证、完整性判断、接口文件管理、异常处理、消息传递等功能。

(2)数据获取接口

数据获取接口模块通过各数据层组件实现对数据的抽取,为上层服务提供数据基础。完成对数据源组件、数据映射组件、模型组件、关系组件等的操作与控制,提供数据结果。对外接口为元数据处理模块和数据处理层接收模块两部分,传递与元数据处理的交互参数和对数据处理层传输的数据信息相关的参数。

(3)数据处理库接口

数据处理库接口完成对数据处理层各算法和工具组件的调用与控制,其对外接口模块包含元数据处理模块、应用层模块和数据层模块。与元数据为交互参数的传递;与应用层模块传递的为复合类型;与数据层交互规范为接收数据层传输的复合类型数据。

(4)应用库接口

应用库接口完成对前端应用层功能模块的操作,提供各类前端BI展示方式。其对外接口模块包含元数据模块和数据处理模块两部分,完成与元数据模块进行查询、反馈参数的交互;与数据处理层数据的交互。

4 应用实例

基于前面介绍的技术和方法,作者以赤潮为例设计并实现了数据仓库系统各层以及接口的实现。完成了各层间接口及各层内的算法、工具组件输入输出数据参数的定义和预处理功能。(图3所示)

从用户提交输入参数中获取请求数据,调用获取模块得到用户的输入信息,并按照要求进行格式转换。从客户端获取符合规范的请求传输至服务端,对接收的请求进行请求判断,如系统资源是否支持、请求是否超出权限等。多线程执行请求任务,完成多维分析与数据挖掘,实现对已有数据直接操作、对原始数据进行查询操作、原始数据查询结果与已有数据进行集成操作等功能。元数据管理综合各种数据和信息,对数据仓库系统的执行过程进行控制。完成记录操作信息、对比分析用户操作等。通过展示工具集将目标数据反馈给用户,实现交互式的旋转、钻取和切片等分析操作。

5 结束语

上述基于元数据管理的数据仓库系统体系结构与接口方案,主要采用对接口文件管理的策略,实现系统各层间及部件内部的交互规范,层次与模块自定义扩展。本文提出了一种新的切实可行的数据仓库体系结构,有效避免了系统部件的耦合,实现了对功能的分割和保护,增加了数据仓库系统部件的独立性,解决了系统数据交互的规范问题。通过应用这种数据仓库体系结构与接口方案,提高了数据仓库系统的开发效率,可以降低系统维护的复杂性,增强系统的可扩展性和可维护性。通过接口技术完成数据仓库的多维分析与数据挖掘发现有用知识,提高了决策的智能性,同时保证了系统的扩展性。

参考文献

[1]刘新颖,王丽亚.基于Web的数据挖掘算法与数据仓库的接口设计[J].上海:计算机工程,2006,32(21):88-90.

数据库管理系统篇8

计算机技术的发展为人们的生产生活带来了巨大的便利,计算机数据库更是适用于各行各业的发展,因此,使越来越多的人开始将数据库系统当做提高工作效率、加强信息管理的重要辅助工具。今天,无论是数据处理、电子商务、还是人工智能都得益于计算机数据库技术的发展[2]。所以,计算机数据库的发展日渐受到人们更多的关注。

2信息管理中计算机数据库系统的特点

2.1数据资源具有共享性

信息的共享是计算机数据库系统的一大特点,数据库的建立就是为了实现信息的共享。数据库系统是面向整个计算机系统的,因此,数据库系统里的数据可以被多个程序和用户同时使用[3]。数据的共享可以节约更多的存储空间,实现数据的兼容,因此,很合适信息管理工作使用。

2.2数据资源的整体性高

本来计算机中的数据是分散的,虽然经过整理之后会有一定的规律,但是数据与数据之间并没有建立起有效的联系,而通过计算机数据库系统却可以实现数据的整合,建立起数据之间的联系,提高数据的整体性水平。

2.3数据具有较强的独立性

数据库系统中数据的独立性主要表现在两个方面:一是数据的逻辑独立性。指的是数据库结构上产生的变化,即要对原来的信息进行变更,在不改变原来程序的情况下就可以实现。二是数据的物理独立性。即数据的物理结构的变化不会对原本数据库的逻辑结构和应用程序产生影响。

2.4数据库的安全性不断加强

计算机数据库系统在信息管理中具有巨大的应用价值。在科学技术飞速发展的支持下,数据库系统的安全性得到了不断的加强,而且各国网络管制力度的加大也保证了计算机数据库系统的安全。

3加强信息管理中计算机数据库系统有效运用的措施

计算机数据库系统在信息管理中的运用已经成为不可阻挡的潮流,未来数据库系统的广泛运用必定会成为信息管理的功臣。虽然计算机数据库技术在不断的发展,使用范围也在急速的扩大,但是我们还是能从其中发现许多的不足。因此,我们要采取有效的措施加强数据库系统的有效运用,提高信息管理的水平。

3.1加强计算机数据库系统安全性建设

数据库系统的安全是计算机数据库系统运用的根本保障,在建设计算机数据库的时候要将安全性做为重要的考虑条件。很多用户在使用数据库的时候安全意识淡薄,导致数据信息没有足够的安全保证。所以我们在进行信息管理的过程中要重点关注安全问题,如保证数据库安装环境的安全、在建设数据库系统时充分考虑数据库系统的安全性、数据库系统要做好备份工等,这样才能加强计算机数据库系统的安全,保证数据库的安全运行。

3.2提高计算机数据库系统的规范性

计算机数据库系统在信息管理中有共享性、独立性等诸多的优点,使得我们的信息管理工作能更有效的进行,但是在数据库系统的实际运用中,各种信息仍然缺乏相应的规范性。所以我们应对数据库系统进行统一的规范,建立统一的标准,这样不仅有利于信息的有效使用,提高信息管理的效率,还有利于计算机数据库系统的进一步开发,为数据库技术的发展提供更多的可能。

3.3加强计算机数据库系统的整合能力

现在我们处在一个信息充斥的时代,各种信息在成倍的增多。面对各种各样的信息,信息用户往往不知该如何取舍,在使用的时候显得力不从心,因此工作效率大大降低。所以,我们必须要提高计算机数据库系统的信息整合能力,减少信息的重复冗余,以方便信息管理者能更好的进行信息的管理,信息用户能更快的从数据库中提取自己需要的信息,实现信息价值的最大化。

3.4不断增强数据的完整性

在数据库系统中,数据的完整是数据运用的基本要求,数据信息的完整程度,直接关系到数据库系统应用的效果和信息管理质量的高低。所以,在发展数据库技术的时候,必须要考虑到数据库的完整性,才能保证数据库系统的有效运用。用户在信息使用的时候要求信息尽量完整,我们在数据库系统建设的时候也要增强数据信息的完整,这样的数据库才有更高的价值。

4结语

推荐期刊
  • 数据
    刊号:11-5323/C
    级别:省级期刊
  • 大数据
    刊号:10-1321/G2
    级别:统计源期刊
  • 大数据时代
    刊号:52-1163/G2
    级别:省级期刊
  • 数据通信
    刊号:11-2841/TP
    级别:部级期刊