线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

数据通信基本概念8篇

时间:2023-06-18 09:57:15

数据通信基本概念

数据通信基本概念篇1

遍布全世界的主机和服务器,错综相联的超媒体资源,这是互联网为我们所构建的一个巨大而丰富的电子信息空间。它无疑是现代社会最重要的信息获取手段,但是它的开放性、分布性、无序性以及惊人的发展速度也为人们对信息资源的利用带来了困难。正如在大海中行驶的船只需要导航系统确定方位一样,要想在茫茫的信息海洋中有效获取有用信息,也必须拥有便捷有效的信息导航技术。一般来说,www网络中常用的信息导航方式有三种:一是利用门户网站的分类索引;二是利用网络搜索引擎;三是利用网站的相关链接。但是目前这三种信息导航方式的效果都不尽如人意。分类索引所覆盖的网络站点范围太小,更新较慢,难以适应网络的快速增长,而且分类标准的不统一和不规范常常影响到用户对站点所属的判断,造成导航失败。搜索引擎虽然是目前主要的网络信息检索工具,但是通过简单的逻辑运算检索到的结果往往是数量庞大且鱼目龙杂,充斥着大量的无用和重复信息。网站的相关链接是指符合当前网站内容主题的内部和外部信息资源的超链接,这种导航方式虽然简单直接,但是信息量非常有限,而且对外部信息的链接常常出现错链和假链,即使是内部信息,也常常因为组织和描述方式的影响,造成用户的“资源迷向”。

用户在信息空间中的“迷航”会使他们感到厌倦而丧失获取信息的信心,分析其原因,主要包括以下几个方面[1,2]:

(1)网络的巨大信息量使人们必须依赖于自动化的处理技术。但是目前因特网的各个网端的技术支持环境比较复杂,信息资源的内容范围、组织结构和存储方式各不相同,呈现出分散、无序、变幻多端的特点,这使自动信息处理技术的应用困难重重。因此要提高信息导航的效率和质量,必须先解决资源异构的问题。

(2)网络信息空间中的数据大多以半结构化和非结构化的形式存在,对信息资源的内容缺乏形式化的语义描述,而且大部分资源间的链接也没有反映语义关系,这使得机器很难对网络信息空间进行深层次的理解和处理,对信息的自动导航也无法像人工操作那样准确有效。

(3)目前的网络导航系统缺乏个性化的信息服务。由于知识背景的差异和一词多义等方面的原因,不同的网络用户之间、用户与系统设计者之间对于问题和信息内容可能会具有不同的理解与认识,当用户按照自己的思路查找信息时,他所选择的导航路径可能是错误的或者低效的。因此信息导航必须考虑具体用户的特殊性,有针对性地提供导航服务。

(4)网络导航系统的设计缺乏规范。门户网站各自依据不同的标准建立自身的分类导航系统,网站的划分随意性较大,常常引起用户的困惑。一些著名的信息搜索引擎也各自采用不同的检索规则,有些系统不能利用历史信息或者不提供二次检索,给用户的使用带来不便。另外,在网站内部的导航系统设计上,也存在着导航结构不合理,导航要素不完整,导航界面不统一等问题。这些都可能造成用户的导航障碍。

由此可见,造成信息“迷航”问题的主要原因在于缺乏信息空间的合理组织和有效的导航机制,这也是第二代web网络技术难以克服的困难。为此,人们正在研制第二代web网络——SemanticWeb,它以结构化信息表示为主,为网络导航研究开辟了新天地。

2SemanticWeb技术

TimBernersLee在1998年提出了SemanticWeb的概念。2001年2月,W3C组织正式推出SemanticWebActivity,使网络环境下的语义处理技术研究渐入佳境。SemanticWeb研究活动的目标是开发一系列可由计算机理解和处理的语义表示语言和技术,通过显式的语义表示和领域本体将网络信息空间编织成为一个巨大的机器可读的知识网络,以支持自动化的信息访问和知识管理,实现高质量的网络信息服务。目前关于SemanticWeb的研究主要集中在网络信息资源及其内容的语义和语义关系表征,基于语义的数据自动分析、理解和处理,不同应用领域和系统间的数据自动交换、转换和复用[3]。SemanticWeb虽然是现有web网络的延续,但在信息导航方面具有许多普通web没有的优势。SemanticWeb中的节点既可以代表物理页面,也可以代表知识实体;SemanticWeb中网页的内容不但可以被人理解,而且可以被机器理解;SemafiticWeb中的链接不再是任意的,而是遵循一定的语义关系。通过SemanticWeb技术,可以改变现有网络松散的数据结构,将信息资源结构化并赋予含义,使网络信息的整合和自动处理都变得更加容易[4]。

2.1本体

所谓本体(Ontology),实质上是描述特定应用领域知识的公认的术语集。关于奉体的定义,比较著名的观点是“本体是概念模型的一个显式的规格说明”和“本体是共享概念的一个形式化的规格说明”,其中,“概念模型(Conceptualization)”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象摸型;“显式(Explicit)”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化(Formal)”表示本体以计算机可读的形式存在;“共享(Share)”表示本体中反映的是共同认可的知识”[5]。

本体通常表达为一组对象(概念)、关系、函数、定理和实例。本体中的对象类按照等级关系组织成基本的结构体系。等级关系包括例化(is-a)关系、类属(kind-of)关系和整部关系(part-of)。上层的对象类为父类,下层的对象类为子类。对象类具有各自的属性,并可依据父子关系继承。对属性的取值对象、取值范围、取值基数等都可以加以限制,还可以对属性的交换性、对称性、传递性、唯一性等进行定义。除了等级关系,本体中的对象类间还可以具有其他语义关系,形成语义网络形式的概念模型。本体是机器自动推理和智能化高级信息服务的基础,对网络而言,一个简单的本体的典型例子就是网络的分类索引(如Yahoo!的分类目录)。本体的应用对于提高网络导航的精度和效率具有重要的意义[1,4)。

2.2RDF和RDFS

RDF是由W3C开发的元数据描述机制,其目的主要是为元数据在网络上的编码、交换和重用提供一个基础。它允许在XML的基础上以一种标准化的、互操作的方式对数据语义进行定义[4],提供了一个描述web资源的数据模型。RDF包含描述资源的属性和关系的声明。资源是任何用URl(UniformResourceIdentifier)唯一标识的实体对象。资源具有属性,属性则具有一定的值,该值可能是简单的字符串或数字,也可能是自身也具有属性的其他资源。这样,资源、资源属性和属性值构成了RDF声明中的三元关系模式,任何本体或描述性元数据都是这种三元关系模式的具体体现”[1,7]。

为了描述元数据元素间的复杂语义关系,W3C进一步定义了RDFS(RDFSchema)。它可以看成是一个本体定义语言,用来建立概念类体系结构、属性层次和类关系。

3基于SemanticWeb的智能导航机制

SemanticWeb的出现为网络信息导航提供了新的研究思路,SemanticWeb技术是解决无序网络空间中“迷航”问题的关键技术。基于SemanticWeb的智能导航是一种以结构化、语义化的概念知识网络为基础,自动形成个性化导航结构的方法。它分为两个方面,一是基于SemanticWeb的信息组织,即利用参考本体对各信息源进行语义描述和整合;二是基于SemanticWeb的个性化导航结构模型的构建,即在有序语义组织的基础上,构造用户语义模型,并据此建立导航结构。图1显示了基于SemanticWeb的智能导航机制的概念结构[8]。

3.1基于SemanticWeb的信息组织

基于SemanticWeb的信息组织的基本思想是,将来自于多个异构信息源中的数据整合到一个语义统一的参考本体中。参考本体是通过分析领域中的各个信息资源集合,提取公共概念、属性和关系而构建的本体,它为所有信息资源提供统一的概念集合和通用语义。

信息整合的方法是先分别将各个信息源中的数据转换为通用的数据模型,然后建立各个数据模型和参考本体之间的映射关系。网络中的信息源具有各种各样的数据格式,其中大部分是HTML页面,有的包含表格和列表。另外还有XML文档、RDF文档以及关系数据库文档等。为了解决分布式异构信息源的语法相异问题,需要将数据转换为公用的数据模型格式,例如RDF。对于非RDF格式的信息数据,可以利用外覆包(wrapper)技术将其自动地转换为基于RDF的数据模型。外覆包对特定格式的数据文档进行解析,并采用RDF声明对其内容进行标注。下面是三种常用的外覆包:

(1)HTML外覆包。由于HTML页面属于半结构化的信息数据,因此HTML外覆包采用的是半指导性的标注方法。即预先手工标注一组HTML页面,然后对新的HTML页面进行结构分析,将新页面与标注页面进行比较,从中提取相关信息。HTML外覆包还可以处理异构的XML文件[1]。

(2)XML外覆包。根据DTD和Schema所定义的XML文档的内容结构和内容元素,建立概念集与DTDSchema之间的映射关系,从而自动地将XML文献中的DTD内容元素标记转换为对应的概念集元数据标记。

(3)关系数据库外覆包。将关系数据库中的数据元素和二维数据关系映射到概念集中,形成语义基础,以便从关系数据库中自动创建RDF声明。

由于不同的信息提供者可能会使用不同的词表来标注数据,因此在建立通用数据模型后,还必须在信息数据源和参考本体之间建立概念和关系的映射,以消除语义差别。根据RDF声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件。另外,采用基于本体的元数据发现和漫游技术,探测相关的RDF声明,可以自动地添加新的信息资源[8]。

3.2基于SemanticWeb的个性化导航

通过建立参考本体以及进行信息整合,无序异构的网络信息数据通过语义概念及语义关系被组织到一起,形成一个有序的公共语义知识模型。但是对于具体网络用户的信息导航,并不直接在全部公共语义模型上进行,而是依据用户语义模型有针对性地进行。

3.2.1用户语义模型

用户语义模型是反映用户观点的概念集合和概念关系。概念集合的确定可以由用户直接提交或者根据用户的注册信息(用户的兴趣、爱好和知识背景等)按照一定的规则计算选择。而构建用户语义模型的关键步骤在于建立用户概念集合与参考本体间的语义映射,寻找参考本体中与用户相匹配的概念和关系。

为了将参考本体映射到用户语义模型,需要预先对参考奉体和用户概念集合进行数据训练,方法是为每个本体概念和用户概念各标注一定的相关资源作为训练数据,然后利用向量空间模型为每个概念生成向量,并计算其标准权重。

建立语义映射的过程通过计算用户概念集合中的概念向量uc与参考奉体中的每个概念向量间的匹配度来完成。假设在n维向量空间中,用户概念向量uc中第i项的权重为的匹配度为[9]:

首先将计算结果中匹配度高于阀值的若干概念向量与uc建立映射,形成从用户概念集合到参考本体的一对多的对应关系。如果参考本体的一些概念被重复映射,则需要选择其中匹配度最高的映射,以保证从参考本体到用户概念集合的一对一关系,即一个本体概念只能和一个用户概念相关,但一个用户概念可以和多个参考概念相关。在建立用户概念集合与参考奉体对应关系的同时,用户概念也继承了本体中的概念层次结构和其他语义关系,成为一个独立的语义模型。

原则上应该将参考本体中的所有概念都映射到用户语义模型中,但是由于用户语义模型是范围相对较小的概念集合,因此参考奉体中的概念实际上不可能被完全映射。为了保持映射的完整性,可以在用户语义模型中设立一个“其他”概念类,参考本体中的所有没有被映射的概念将成为它的子概念[9]。

举例来说,假设用户提供的信息表明其在体育领域感兴趣的概念为“足球”、“足球世界杯”、“足球亚洲杯”、“NBA”、“围棋”、“奥运会”,图2显示了这些用户相关概念经过映射后形成用户语义模型的过程。

用户概念集合中的每一个概念都在参考本体中找到了与之相对应的一个或多个概念,将这些概念从参考本体中提取出来,并根据其语义关系重新组合,就形成了用户语义模型的结构。例如:用户概念“NBA”的对应概念为“篮球”、“篮球赛事”和“美国篮球职业联赛(NBA)”,因此这三个概念都被包含在用户语义模型中,且它们之间的父子关系(即等级关系)保持不变。又如,虽然参考本体中的“其他赛事”概念和用户概念集合没有直接对应关系,但由于该概念和“足球赛事”与“篮球赛事”两个概念间有语义关系,且这两个概念均与用户相关,因此该概念也被包含在用户语义模型中。另外,“世界杯足球赛”概念实际上与“足球”和“足球世界杯”两个概念间都具有对应关系。但由于它与后者的匹配度比前者高,因此将它映射到后者。

3.2.2个性化导航结构模型

导航结构模型显示了导航系统组织、关联和显示信息内容的方式。站点地图就是一种最简单直接的导航结构模型。个性化导航结构模型是基于用户语义模型创建的针对特定用户的导航结构,是个性化导航服务的实现。

导航结构的设计需要考虑三个基本要素:卡片、页面和链接。一张卡片只包含一种类型的信息内容,是导航结构模型中的最小组成单元。页面与物理的web页面相对应,一个页面上可以包含若干个卡片。链接则用于连接各个页面中的卡片以形成整体结构[8]。通常,导航结构模型总是从一个缺省的根页面开始,每一级页面都包含了到下一级页面的链接,信息内容通过卡片和页面进行分类和聚合,导航通过链接来进行。在个性化的导航结构建模中,导航结构是根据用户语义模型来确定内容和链接关系的。图3显示了一个导航结构的部分示例,它是在图2中的用户语义模型的基础上建立的。

导航结构的建模过程就是对各级贞面中的卡片的内容、类型和表示样式的确定过程。卡片的内容根据触发点和用户语义模型来选择,不同的用户将获得不同的信息内容。

导航结构中的卡片被分为两种类型:静态卡片和动态卡片。静态卡片的内容独立于数据源,主要包含静态文本、图片等。导航结构中的根页面通常都包含静态卡片,具有预先定义的锚点,指向下一级的页面。动态卡片的内容视数据源而定,如果数据源改变,则卡片的内容必须重新计算生成。动态卡片还可以细分为四种类型,每一种都代表了对信息进行结构化的一种典型方法:

(1)列表型(List)卡片:显示实体的实例列表,每一条实例都可具有指向该实例具体内容的链接入口。列表中的实例可以按照某种属性排序或索引。图3中的页面P2、P3、P4、P5都包含了列表型卡片。

(2)事实型(Fact)卡片:详细地显示一个实例的具体内容,如图3中的页面P4包含的“新闻内容”卡片和页面P5包含的“赛事内容”卡片。

(3)幻灯片型(Slide)卡片:顺序显示一组实例的具体内容,每次一个实例,且具有浏览附近实例的超链接,待显示的实例可以按照某种属性排序或索引。图3中的页面P6包含该类型的卡片,其中每个足球俱乐部的相关信息将被依次显示。

(4)查询型(Query)卡片:要求用户先填写一组实体属性的值,然后查询符合该值的实例并显示,通常该类型的卡片用于导航系统中的信息检索,如图3中的页面P7包含的卡片[8]。

另外,不同的卡片具有不同的表示样式,表示样式描述各种表示元素的属性,例如字体、颜色、布局等。表示样式可以根据用户喜好确定。

个性化导航机制的导航方法采用用户语义模型的查找与语义链的触发相结合的方式。当导航结构中的一个链接被触发时,该链接将被赋予一个查询式Q(C,T,S),式中三个变量的含义分别代表卡片的内容、类型和表示样式,在用适当的值填充变量后,即可利用查询式计算生成链接末端的卡片。例如在图3中,当链接L1被触发后,L1的查询式为:Q(“体育”,List,Stylel),其计算结果为页面P2中的卡片。Q中的变量C的值为L1的触发端点的概念“体育”,Q在计算时将检索用户语义模型,获取此概念的相关概念或相关资源作为卡片的内容。Q中变量T的值为List,因此Q生成的卡片将具有列表型的信息结构。同时,由于Q中变量S的值为Stylel,因此Q还要读取样式表中名称为Stylel的表示样式,并据此决定卡片的外观。同理,链接L2的查询式为Q(“足球俱乐部”,Slide,Stylel),其结果是生成一个信息结构为幻灯片类型,表示样式为Stylel,内容与足球俱乐部相关的卡片”[11,12]。

导航机制采用SemanticWeb技术,揭示和整合网络信息资源的深层语义知识模型,能有效解决无序、异构网络信息空间中的“迷航”问题。它利用映射方法建立用户语义模型,可以充分表达用户需求的语义知识,以提高个性化导航的效率。

4结束语

网络信息的利用状况不容乐观,迫使人们努力探索更为先进更为成熟的导航理论、方法和技术。第二代web技术——SemanticWeb在信息服务中的应用,促进了网络导航新技术的发展。它作为导航系统的信息组织框架,能够使复杂的信息空间变得有序、清晰和直观,它采用机器可读的形式化的知识表示方式,有利于知识内容的自动获取。目前,SemanticWeb技术正获得越来越多的应用,相信经过不断地研究和优化,以SemanticWeb为基础的高级网络信息服务将逐步成熟,智能、高效、个性化的导航系统将成为开发网络信息资源的主流工具。

【参考文献】

1丛敬军,阎辉.数字图书馆的知识信息导航技术研究.中国图书馆学报,2003,29(145):51~53

2马瑞民,衣治安.Web上超文本数据导航方法的研究.情报学报,2001,20(5):538~544

3张晓林.SemanticWeb与基于语义的网络信息检索.情报学报,2002,21(4):413~420

4刘柏嵩.基于知识的语义网:概念、技术及挑战.中国图书馆学报,2003,29(144):18~21

5MikeUschold,MichaelGruninger.Ontologies:Principles,MethodsandApplications.KnowledgeEngineeringReview,1996,11(2):93~155

6JeffHeflinetal.Requirementsforawebontologylanguage./TR/webont-req/

7张平,郭金庚.语义网描述语言分析.电脑开发与应用,2003,16(4):31~33

8OntoWebberModel-DrivenOntology-BasedWebSiteManagement.www-db.stanford.edu/pub/gio/2001/Ontowebber01.pdf

9Ontology-BasedPersonalizedSearchandBrowsing.ittc.ku.edu/~sgauch/selectedpapera/WLAS2003.pdf

10毕强,刘早学.QUIC——一个智能超文本导航系统.情报学报,2002,20(12):1277~1281

数据通信基本概念篇2

关键词:本体;语义;相似度;信息检索

中图分类号:TP301 文献标识码:A

Abstract:Aimed at the defects of the traditional keyword-based retrieval model,an ontology-based semantic query-oriented information retrieval model was built.Concept of four tuple ontology was defined,the resource mapping scheme was given,ontology concept expansion strategy was formulated, the concept similarity computing algorithm of ontology was described,and the experimental comparison was carried out.The results show that precision and recall rate of ontology semantic retrieval model are higher than the traditional retrieval model,this study has some theoretical and practical value.

Keywords:ontology;semantic;similarity;information retrieval

1 引言(Introduction)

随着互联网技术的快速发展,人类已进入信息时代,尤其是当前大数据背景下网络信息资源的数量越来越庞大,其已成为全球最大的信息库,且网络信息资源随之呈现出更加复杂的特性,暴露出一些亟待解决的问题[1-3]。然而,传统信息检索模式面对文本字符串匹配的语法层面,缺乏针对信息表示及处理和理解的语义层面分析,即信息是丰富的,而知识却是贫乏的,所以依赖传统的信息检索方式已很难满足用户需求,而本体及其相关理论技术的出现为解决这一问题提供了可能。

本文将利用本体建立标签之间的语义关系,并引入语义与Agent技术,实现标注系统的语义检索,通过语义模型丰富的描述能力和强大的逻辑推理能力准确描述信息资源,以Agent组织完成用户交互、信息检索、信息过滤、结果返回,构建一种基于本体学习的能够实现语义层面分析的检索模型,以弥补传统信息检索的不足,进而从信息查全率和查准率方面改善信息检索的效率。

2 基于本体的语义检索模型构建(Construction of semantic retrieval model based on ontology)

基于领域本体的语义检索,可依据领域本体知识库对信息资源或文档进行语义标注,本体概念的语义信息可借助本体概念定义及本体概念之间的关系进行描述,因为特定专业领域的概念可通过领域本体进行描述,这样可使文档或信息资源更具有语义,且可揭示出用户检索词的语义,把从文档和用户查询抽取的关键词转换为具有语义的本体概念,实现基于关键词的语法检索到基于本体概念的语义检索的提升,其中,语义检索与传统基于关键词匹配的检索方式不同,因为语义检索基于信息理解的语义层面对信息资源及用户提交的检索请求进行分析,语义检索方式对检索条件、信息组织以及检索结果均赋予了语义成分,可从语义层面提高检索精度[4-7]。

2.1 领域本体的语义检索理念

基于领域本体的语义信息检索,其理念在于使信息资源或文档进行语义描述,借助领域本体知识库完成对文档和信息资源对象的语义标注,进而揭示出文档和信息资源对象的语义理解,及其用户检索词的语义信息,同时可实现领域本体检索词的语义扩展,最终完成理想检索结果的获取,具体检索过程为:

step1:构建并描述领域本体概念。描述领域本体概念,构建领域本体知识库。

step2:提取文档或信息资源对象特征并进行资源映射。借助领域本体概念描述及知识库构建和管理,对获取的信息资源或文档进行语义标注及资源映射,对信息资源或文档语义内涵进行揭示。

step3:制定本体概念扩展及查询语义扩展策略。在领域本体概念描述的基础上,对用户查询请求的语义信息进行揭示,并对用户检索词进行语义扩展,检索系统完成对生成的备选检索词集的检索工作。

step4:实现领域本体概念相似度算法。依赖本体概念结构图,实现本体概念语义距离计算算法、本体概念节点深度计算算法及语义综合相似度计算算法,以此服务于查询结果排序环节。

step5:对检索系统的检索结果进行排序。基于相关相似度计算算法及规则,完成用户原始检索词及检索系统返回检索结果的相似度比较,基于相似度对检索系统的检索结果进行排序并反馈给用户。

2.2 领域本体语义检索模型

领域本体语义检索模型,如图1所示。

(1)领域本体及其分类体系作为数据资源语义表征的核心,可对文档或数据资源描述给予指导。领域知识也作为查询扩展和查询结果排序的基本依据。因此,领域知识的构建和维护,如领域本体、推理规则的构建和维护,离不开领域知识管理。

(2)数据资源或文档的语义可通过标注进行语义揭示,再借助文档特征提取技术,从领域本体词汇中获取本体概念,建立数据资源或文档的语义特征域,完成数据资源库文档的自动标注,并完成标注和索引信息资源或文档的非语义特征,由此生成文档索引库和元数据库。

(3)基于文档或数据资源标注信息构建索引库,以此为依据,检索出能满足用户需求的文档或数据资源信息。

(4)实现查询扩展及结果排序,就是以领域本体生成的本体词汇库为依据,完成用户查询输入文字的分词工作,将用户查询分成本体概念集合和非本体概念集合。然后,分别对这两个集合按相似度扩展,得到两个查询候选集合,以此为依据,借助相关相似度排序算法获得排序后的查询集,最后,完成查询请求到索引库及检索库的提交环节,将查询结果按查询请求的相似度排序后,将结果推送给用户。

3 关键算法实现(Key algorithm implementation)

3.1 四元组本体内涵及其数学描述

基于四元组的本体概念描述为:,其中,表示用户,描述使用标签管理资源的用户,并且每个用户有唯一的ID号标识。表示标签,描述集合中用户使用过的标签,标签可以是任意的字符串(单词或短语),现定义标签为一组词语序列,,

,公式描述标

签映射成一组术语,术语可以是任意单词。表示资源,描述所有领域相关资源,其内容取决于用户标注集的类型,用户标注集主要由用户、标签、资源三个要素组成,即用进行描述。表示三元关系,其中元素描述用户使用标签标注收藏的资源。函数式描述用户使用一组标签定义一个资源,其中 。

为了理解用户标签含义及标签之间的关系,构建主干本体,用二元组进行描述:,

其中表示概念集,概念,是概念的唯一标识,是同义词集合,包含了概念的同义术语集合,是描述概念的短语,是将概念分类到泛化类中的词类,也可将四个元素分别记为:,,,;

表示概念集之间的关系。现定义为一组同义词集合,资源,定义一组同义词集合及里资源,,每个资源用二元组表示为:,

其中,为资源的频率分配。三元组表示关系集合中的关系,其中,,,是关系的两个关系项。

3.2 资源映射方案设计

一个标签可以映射成一个或多个概念,也有可能只有部分标签可以映射成一个或多个概念,现提供几种资源映射方法。

(1)直接映射

直接映射描述标签到概念的映射,即将每个标签映射到本体中的概念,可表示为:

3.3 本体概念扩展策略制定

(1)本体概念扩展

本体概念扩展步骤如下。

step1:对每个本体概念进行扩展。

为领域本体概念集,为两个本体概念的相似度。如果对本体概念进行语义扩展可形成,

其中集合中每个元素要么为空,要么,且,。

也就是说,可基于相关相似度计算算法扩展单个本体概念,选择相似度大于给定阈值的本体概念,并且被选取的本体概念同其他用户本体概念之间的相似度,比该被选取本体概念同当前单个本体概念之间的相似度小。

step2:构建本体概念查询集。对用户本体概念集的元素进行扩展,其中的每个概念元素都可扩展为一个扩展集,可分别从每个中进行本体概念的选取,构建本体概念查询集,查询本体概念集的组员就是从每个本体概念扩展集中选取的概念,查询本体概念集描述为:

(2)扩展关键词集合

关键词的扩展相对简单,因为关键词不是本体概念,所有扩展的集合所组成的集合为原关键词集的幂集,记为,其中的元素本身也是集合,且与用户输入的原关键词集之间的相似度计算也并不复杂,现令为幂集中的元素,则与之间的相似度计算模型为:

3.4 本体概念相似度算法

领域本体可描述特定领域中的概念及其关系,并可形成本体概念结构图,该本体图可计算本体概念相似度,其实本体概念结构图可看作为带有根节点的有向无环图,本体概念用图中的节点进行表示,概念之间的关系通过有向边进行表示,且该本体概念结构图具有树型结构的层次结构特性,及有向边和多重继承的特性。具体算法步骤如下:

step1:本体概念语义距离的计算。

基于本体概念图,本体概念的语义距离表现为连接两个概念节点的有向边的数量,记为。本体概念语义距离与本体概念语义相似度之间的关系为:两本体概念语义之间的距离越大,则这两个本体概念之间的相似度越小;反之,两本体概念语义之间的距离越小,则其之间的相似度就越大,即两者成反比关系。

step2:本体概念父节点深度的计算。

基于本体概念所体现的层次结构特点,对本体概念节点进行自顶向下的组织,及由大到小的分类,依据本体概念最近共同父节点所在层次,可知其层次越深,本体概念分类越细,从其父节点继承的语义信息就越多,其共同语义信息就越多,即这两个本体概念间的相似度就越大。现用描述两概念的最近共同父节点深度,表示两概念最近共同父节点。

step3:计算语义重合度。

本体概念之间的语义重合度计算可依据两本体概念间所包含的相同父节点个数来完成,但如果同时对本体概念语义距离和本体概念语义重合度加以考虑,则存在重复计算的可能性,因为本体概念语义距离中隐含着本体概念语义重合度信息,所以可基于本体概念语义距离和共同父节点在本体概念结构图中的深度,计算出本体概念相似度,令两本体概念 、,则、的语义相似度可通过、的语义综合距离和、共同父节点的综合深度对相似度影响的加权归一化进行表示,计算如下:

其中,为语义距离加权值,表示共同父节点的加权值,且满足,语义距离决定的相似度可通过调节参数进行调节,表示本体概念树的最大深度。

step4:本体概念综合相似度计算。

如果对用户检索词集中的本体概念进行语义扩展,可生成查询语义扩展集,记为,如果对用户检索词集中的非本体概念的关键词集进行扩展,可生成关键词集的幂集,记为,现从中取一元素,记为,该元素是一个扩展概念集,再从中取一元素,记为,该元素为一个扩展关键词集,便可形成一个提交给检索系统的检索请求,表示为(,),令用户检索词集为(,),每一个扩展的检索请求记为(,),则通过(,)和(,)相似度的计算,可得到用户检索词集和检索结果的相似度。现基于扩展关键词集相似度、扩展本体概念集相似度、分类概念集相似度,可计算出综合相似度,数学描述如下:

其中,、为调节参数,代表本体概念集相似度与综合相似度的比值,代表关键词集相似度与综合相似度的比值,且。

4 实验与结果分析(Experiment and result analysis)

本实验环境为:Windows 7操作系统,SQL SERVER 2008数据库平台,模型数据库动态链接查询实现工具为某专业数据库数据及WEB技术。建立领域本体的开发工具为:5.0的PROPERTY BROWSER环境,每个词条类的构建借助Object Property属性实现,因为Object属性可在类与类之间建立不同层次的关系描述,而且两个Object属性之间存在多种关系。如果基本父类建立完成后,还可为每个父类添加不同的子类和属性,同时还具有继承特性,即所有子类都可继承其父类的基本属性。

实验步骤为:

step1:对选取知识本体的专业领域及范围进行确定,基于自顶向下的顺序,构建本体概念和术语清单。

step2:对基础词库进行完善。

step3:依据分类体系层次,对本体实例进行添加,构建整个领域本体。

本体概念语义信息检索模型测试指标通过查准率和查全率进行衡量,分别描述为:

查全率:

查准率:

同时,借助对检索结果进行评价及对比分析,以便于全面衡量其检索效果,的计算公式描述为:

它为检验本体概念语义信息检索模型,将其与传统关键词检索模型进行实验对比分析,对抽取的某领域的标准词条进行测试,从中随机选择四个词条实验样本,分别以相同词条在本文模型和基于关键词模型中检索,实验结果详见表1、表2和图2所示。

由以上实验结果可知,领域本体概念的语义信息检索模型效率高于传统关键词信息检索模型,且语义检索的 也高于传统关键词检索,表明本体概念语义检索模型具有一定的理论及实用价值。

5 结论(Conclusion)

论文构建了面向语义查询的信息检索模型,对资源映射方案、信息概念扩展、相似度计算等进行了改进,实验结果证明该模型具有较高的查全率和查准率。今后的工作中,将继续研究本体结构中,如何查找到更多概念邻居,以减少数据稀少的影响,进而提高检索效率。

参考文献(References)

[1] Zhang Bin,et bining relation and content analysis for social tagging recommendation[J].Journal of Software,2012,23(3):476-488.

[2] 吕刚,王晓峰,胡春玲.基于本体学习的标签推荐方法研究[J].小型微型计算机系统,2015,3(3):424-426.

[3] 何继媛,窦永香,刘东苏.大众标注系统中基于本体的语义检索研究综述[J].现代图书情报技术,2011,203(3):51-56.

[4] 魏桂英,高学东,武森.基于领域本体的个性化文本信息检索[J].辽宁工程技术大学学报,2011(4):316-320.

[5] 张宗仁,杨天奇.基于自然语言理解的SPARQL本体查询[J].计算机应用,2010,30(12):3397-3400.

[6] 何伟,杨小平.基于词间语义关联性的本体扩展[J].计算机应用与软件,2011,28(11):73-76.

[7] 张胜.一种基于领域本体的语义检索模型[J].软件导刊,2014,13(3):18-21.

作者简介:

数据通信基本概念篇3

同时,众多的应用系统所带来的身份的认证和管理的复杂性既使得管理成本不能降低,又使得整个系统的安全性、可整合性降低,这已成为电子政务信息管理系统进一步发展的瓶颈所在。因此,要想改变电子政务信息化水平的现状,整合信息资源,解决“信息孤岛”问题,就必须建立一个公共数据平台,它是在政府部门原有的各业务系统层面上搭建的一个高层应用平台,将各业务系统的异构数据集成应用,向下屏蔽各异构信息源异构性,向上提供数据集成基础服务,实现各种信息系统的互通互联和数据共享、数据的一致性,并在此基础上实现规范的信息管理。近年来,随着语义Web的发展,其核心技术本体在数据集成方面得到了应用。本体作为共享领域概念模型,可以通过定义领域内一致的术语和术语间的关系来描述异构信息源的语义信息,从而消除异构数据源的语义冲突。

在国外,对本体的研究较早,本体已经应用到各个领域。相比国外,国内对本体的研究起步较晚,尤其是在电子政务方面,缺乏一致的本体模型,相关的应用也少。目前,本体技术很少在电子政务信息化建设中应用,因此,如何把本体技术应用到电子政务异构数据管理集成中,采取何种策略进行构建,消除电子政务各信息系统异构数据库模式的语义冲突,从而解决电子政务中异构系统导致的信息孤岛问题,构建统一的数据平台,以便提高政府管理效率,就显得尤为重要。

1电子政务与本体

1.1电子政务与本体概述

电子政务是政府机构广泛深入地应用现代信息和通信技术,将政府内部和外部(社会)的责权与职能通过计算机网络硬件和软件技术进行集成、整合、优化、重组,做到跨越时间和空间,突破部门分割和传统组织、工作方法与工作流程的限制,力求全方位地、有效地施行与提供安全、高效、优质、规范和符合国际水准的管理与服务。本体是为了某种目的描述世界时的一组抽象化概念,并且该组概念是得到广泛认可的、以规范化形式描述的。根据定义描述本体时目的的不同,本体可以分为多种类型,依照领域依赖程度,可以细分为顶级(top—leve1)、领域(domain)、任务(task)和应用(application),这里研究的是领域本体,领域本体由属性、对象、关系和子领域本体组成。引入本体的思想,借助本体对领域知识进行详细描述,以抽象出概念化的语义层次,为进一步研究语义化的信息交互提供了基本的语义层次2J。从形式上来说,本体由概念、关系、函数、公理和实例5种元素组成。本体中的概念可以是一般意义上的概念,也可以是任务、功能、行为、策略推理过程等;关系表示概念之间的关联;函数则是一种特殊的关系;公理用于表示一些永真式;实例是指属于某种概念的基本元素,即某概念类所指的具体实例。

1.2本体在电子政务中的应用案例

美国印第安纳州电子政府建设是很多文献介绍的典范,其成功之处在于利用本体方法建设电子政府数据库J。美国印第安纳州电子政府IndianaFamilyandSocialServicesAdministration(FSSA)本体,属于最上层的域本体设计,它在“家庭与社会服务”这一本体下定义了9个本体(即低收入、处于危险的儿童、精神病与吸毒、弱智、区域健康与人性化服务、医疗补助、政府机构、法律实施及财政),建立了最上层的概念关系,并用图形和箭头形式标示出了各下层本体之间的关系以及在一个专业本体里所包括的术语。

1.3电子政务中本体的核心概念及抽取方法

目前,大多数本体学习方法和本体学习系统都是直接将术语识别为概念。术语的抽取被认为是进行本体自动构建的关键。针对术语抽取的研究主要有基于语法规则的方法、基于统计的方法、ICT—CLAS系统法J。利用语法规则的方法来进行术语抽取具有提取术语准确度较高、处理过程简单、计算量较小、能够有效提取低频术语等多项优点。但是,由于语言学规则本身难以掌握,尤其是针对开放性的语料,语言学的规则更是难以准确应用,利用人工来研究语言学的规律越来越难以实现;使用统计的方法来抽取术语可以高效地识别领域术语,只要一个词在文本集中出现的频率高,就可以被有效抽取出来,可移植性较好。但是,这种方法计算量大,在处理低频术语的时候,效果较差;ICT—CLAS系统法主要采用ICTCLAS系统对内容进行分词处理,然后对分词进行抽取处理,这样抽取的优点是抽取内容比较全面,但效率比较低,并且需要人工手动处理。

以上抽取方法都有优缺点,在本体抽取中单独地使用其中一种方法都不能达到最优的效果,笔者把以上多种方法混合起来,采用程序自动分词合并方式,加入TF—IDF算法,增加对领域术语的相关度的计算,筛选出与领域相关度低的术语,从而提高领域术语抽取的正确率。基本步骤如下:

1)采用语法规则的方法提取相关候选术语;

2)采用程序自动处理方式,对相关候选术语进行分词;

3)采用统计法对分词进行统计,根据频度提取术语;

4)使用TF—IDF算法对提取的词进行相关度计算,求出每个候选术语在政务领域文本中的相关性,抽取出政务领域独占性强的词作为政务领域术语。

2电子政务公共数据平台架构

为了确保异构数据获取和更新的准确性,同时又不改变原有硬件设施和人力资源,要想实现真正意义上的异构数据库间信息资源的共享,集成后的数据必须保证较高的集成性、一致性和完整性,这是公共数据平台建设的重要环节。

2.1本体模型构建

电子政务中大量不同的应用系统,其异构是普遍存在的,要想向下屏蔽异构数据,建立数据中心,向上提供公共数据平台,就必须构建本体模型对元数据进行抽象概念化处理。电子政务本体构建中的2个核心问题是概念抽取和概念关系的获取,概念抽取是对数据源进行分析,抽取出概念集合和每个概念的属性集合。概念抽取本体有很多方法,可以由领域专家手工进行,也可以利用领域概念词典,自动抽取数据源中的概念。概念关系的获取可以通过2种方法实现,即基于语言规则的方法和基于统计的方法。在对所有数据源进行分析的基础上,找出其中所涵盖的术语,进行概念抽取,定义共享的词汇表,根据相关本体规则进行本体抽象和语义处理。

2.2公共数据平台架构

使用公共数据平台的好处在于所有的共享数据被存储在中心数据库,可以向上层提供统一的数据,便于资源共享和集中管理,而电子政务网内各应用系统中异构数据库就拥有了完全的自治性,这样首先需要对底层异构数据库进行本体抽象处理,向下屏蔽异构数据,然后采用数据交换技术和数据同步技术保持中心数据库数据和底层异构数据库数据的实时同步。

电子政务公共数据平台架构分为应用层、异构数据集成层、本体模型层和异构数据本体库层,如图2所示。异构数据本体库层主要包含各大应用系统异构数据库,通过不同的连接器及适配器向本体模型层提供本体的元数据;本体模型层对元数据进行概念化,按照本体规则进行抽象处理和语义处理;异构数据集成层在本体模型之上利用AGENT同步模块对数据进行交换、同步而实现数据集成,公共数据都集中到中心数据库,向上层提供公共数据平台;应用层主要是用户访问层,针对不同用户提供统一身份认证,实现单点登陆。

3电子政务公共数据平台设计

3.1构建电子政务领域本体的方法步骤

W3C组织推荐的在语义网上应用的标准本体表示语言是OWL,目前本体的构建方法主要有TOVE法、骨架法、KACTUS工程法、SENSUS法、IDEF5法、七步法等。这些方法大多数是以不同领域为背景,从个案的开发过程中通过逆工程总结出来的J。例如:TOVE专用于构建TOVEOntology,是关于企业建模过程的知识本体;骨架法专门用来构建企业本体;KACTUS是指“关于多用途复杂技术系统的知识建模”工程,目的是要解决技术系统生命周期过程中的知识复用问题-l;SEN。SUS法是开发用于自然语言处理的SensusOntolo。g)r的方法路线¨;IDEF5法是用于描述和获取企业本体的方法-l。;七步法是斯坦福大学医学院开发的,主要用于领域本体的构建_l。这些方法各有特点,但都不是针对电子政务领域的,没有充分考虑电子政务领域的特点。笔者结合电子政务领域特色,提出基于电子政务业务模型,抽取概念,建立电子政务领域知识本体的方法,步骤如下:

1)需求分析,确定电子政务领域本体应用的目的、范围、表示方法和用途等。电子政务领域本体建设要以应用需求为牵引,要对人类在认识世界过程中形成的不同“本体”(知识体系)进行认真分析,最终达到需求分析的定位准确、涵盖得当。

2)概念化及抽取,通过各种渠道获得电子政务领域本体的主要概念,确立概念间等级关系,并用精确无歧义的语言加以描述,形成该领域本体的核心语义内容。获得领域信息最根本的方法应该是考虑复用已有本体的可能性。通常的也是最行之有效的方法是复用已经广泛使用于各个学科领域的主题词表和分类表。

3)概念间联系,确定电子政务领域本体概念间联系,如属性、种属关系、总体与部分关系、领域中的特有关系;对所收集的名词术语进行规范,罗列重要的词和短语,并将其归类。还要确定概念间结构,定义类别和等级结构。

4)本体生成,采用SFCA算法,对概念之间的关系进行分析,自动生成局部本体,再采用PROMPT算法,把局部本体合并,生成全局本体,存放在本体管理器中。

5)本体编码,利用形式化描述语言对“概念化”的电子政务领域本体进行编码,使机器易于处理,尽量将相关领域已存在的本体集成到要构建的政务领域本体中,既避免重复建设,又可以形成领域内共享的本体。

6)确认、维护与评价。对电子政务领域本体按照一定的标准进行确认和评价,包括本体的清晰性、一致性、可扩展性等;随着电子政务领域知识的增加,本体要不断更新、不断进化,增加本体概念,完善本体概念间的语义关系。

3.2电子政务公共数据平台设计

电子政务公共数据平台是在原有的各业务系统层面上搭建的一个高层应用平台,将各业务系统的异构数据集成应用,向下屏蔽各异构信息源异构性,向上提供数据集成基础服务,实现电子政务各应用系统的数据共享和数据一致性,有效解决信息孤岛问题,并在此基础上实现规范的信息管理。设计基于本体的电子政务公共数据平台,首先研究数据集成方法与本体技术及基于本体的语义集成,在此基础上构建公共数据平台异构数据库集成框架,基于本体的异构数据库集成框架是设计公共数据平台的基础。目前数据平台的建设主要有3种模式:全局中心数据库模式、数据交换模式和共享数据中心模式。全局中心数据库模式:建立一个数据中心,各应用系统直接应用于该数据中心之上,逐步取消原有业务数据系统;数据交换模式:保持原有业务数据系统,用数据缓存的模式进行各业务数据系统之间的数据转换和抽取;共享数据中心模式:原有各业务数据库保持不变,通过触发器或者开发数据接口抽取需要共享的数据,并且进行转换,汇总生成共享数据库。上面的模式各有所长,但也存在不足,这里提出一种统一公共数据平台模式,即制定统一信息编码标准,从而建立核心数据库,存放最基本的公共信息,保留原各业务数据系统。这样公有数据存放在中心数据库,一方面可以实现资源的最大共享,另一方面各专业数据仍保留在原系统中,保证了数据独立和安全。平台结构如图3所示。公共数据平台建立在中心数据库之上,中心数据库中存放的公共数据可以通过数据交换、数据同步的方式更新到各业务系统数据库中,数据的同步更新采用事件驱动方式,通过触发器和AGENT同步模块来更新数据。AGENT同步模块基于本体模型之上,本体模型层对元数据进行概念化,按照本体规则进行抽象处理和语义处理。

数据通信基本概念篇4

[关键词]语义互联 本体 全局本体 UMLS

[分类号]G250.73

1 引言

语义提取、语义分析、语义检索、语义集成和语义互操作已经成为当前语言学、逻辑学、图书馆学情报学、计算机科学等领域的研究热点。各领域从不同角度进行理论探讨和技术挖掘,力图进一步推动数字资源的语义互联和语义互理解。随着本体理论的日趋深入和本体技术的渐臻发展,本体作为一种蕴含知识间语义关系且能在知识层提供知识共享和复用的工具已经得到共识,以本体为知识组织核心的语义检索成为主要研究方向,并已积累了一定的研究成果。在此基础上,专家学者开始探讨本体在知识管理、语义互操作、决策支持和推理中的应用,并探讨本体促进数字资源语义互联的模式、机制并构建实验性系统。在医学领域,由于美国国立医学图书馆长期的积累,已经形成世界范围公认的知识组织体系,包括科学的叙词表、各种本体、医学术语标准、国际分类标准等。这为医学领域的数字资源进行语义互操作奠定了基础,为整合分散的、异质的各类生物医学数据源提供了保障。本文整合各种领域本体,集成各领域本体中的概念、术语和概念之间的语义关系,提出了医学数字资源语义互联模式――以UMLS为主导的多本体融合模式。

本文的研究意义在于促进各种知识本体在医学信息领域中的有效共享,为建立智能化的医学临床科研融合系统提供基础性研究,为进行深层次的医学数据挖掘与服务提供理论支持。

2 医学数字资源语义互联模式

UMLS(the Unified Medical Language System)是美国国家医学图书馆(National Library of Medicine,NLM)设计和维护的一体化医学语言系统。UMLS词表已成为词典标准在生物医学知识中共享,并被应用于生物医学数据库的信息提取和集成、本体的语义集成等。鉴于此,在构建医学数字资源语义互联方面,充分利用专家对UMLS在描述概念方面已取得的研究成果不失为一个捷径。

医学数字资源语义互联模式是以UMLS为主导的多本体融合模式,其充分考虑了UMLS在描述概念和语义集成方面的优势地位,为生物医学用户提供了统一的语义空间。在该语义空间中,异构数字资源通过语义标引实现语义互理解,用户可以对生物医学文献、生物医学数据库、临床数据进行数据挖掘、数据集成、决策支持、自然语言处理和知识发现,实现对知识的智能服务和共享。该模式是一种基于全局本体统控、多种本体融通的数字资源语义互联模式框架,见图1。在该模式中,每一种本体发挥他们各自在数据挖掘、语义分析、语义检索方面的作用,充分体现出本体的复用以及对现有知识组织体系的再利用;另外,该模式将提供词典标准的UMLS作为全局本体,形成共享的词汇集,从而保证本体之间的语义互理解。

3 医学数字资源语义互联的结构

以UMLS为主导的多本体融合模式由三个基本层和两个链接层构筑。

3.1基本层

・用户层。该层是系统与用户的交互接口,用户通过应用接口层对异构数据源进行语义查询、数据挖掘等操作。

・语义层。该层是系统的核心层,是以UMLS为主导的多本体融合数字资源互联模式的关键所在,该层以UMLS为全局本体,通过本体映射和本体集成方法与工具复用医学生物学领域本体。

・数据源层。该层集成异构数据,包括临床数据、实验数据、基因(蛋白质)数据、文献数据和网页数据。

3.2链接层

・知识管理层。该层位于数据源层和语义层之间,在该层上,本体作为一种词汇来源支持对数据和资源的标引注释、检索和跨医学信息资源和本体的映射,反映数据资源层与语义层的交互。

・决策支持与推理层。该层位于用户层与语义层之间,在该层上,本体作为一种语义核心集支持对自然语言的处理、数据的集成、决策支持以及知识发现。

三个基本层是医学数字资源语义互联的根本和目的所在,两个链接层是数字资源语义互联功能和智能的体现。

4 医学数字资源语义互联的机理

4.1UMLS本体的全局统控

医学知识本体为用户、资源和服务提供了信息交互的理解平台,为信息共享提供了可能性。目前,国际上开源的生物医学领域本体大体分为4种:基于医学信息检索的本体类型(UMLS、MeSH),基于生物医学数据的本体类型(OBO系列本体、GO),基于临床医学的本体类型(OpenGALEN、转化医学本体TMO),基于医学调查的本体类型(OBI)。这些医学领域本体或者建立了临床术语,或者为关联、集成和转化以患者为中心的数据提供了框架,或者定义一套结构化的通用的受控词表,都已经应用于自然语言处理的各个方面,如在词义冲突消除、语义冲突化解、语义检索、机器理解等方面,这些本体库各具特色,而UMLS在描述概念、术语、概念间关系、语义类型和语义关系方面更为全面和成熟。医学数字资源语义互联模式框架中,UMLS起全局本体的作用,利用UMLS融合语义互联框架中的局部本体,诠释用户、资源的语义,为两者之间的语义互联提供纽带。

4.2多本体融合的语义标引机制

在医学领域,最重要的三种数据资源是:生物(医学)文献、临床文献和基因产物。目前对这三种数据资源进行标引都有通用的标引词表和本体,这些现有的知识组织体系是信息组织专家多年研究的成果,已被广泛接受而且拥有大量的研究型用户,对这些知识组织体系的继承有助于促进数字资源语义互联的快速实现。

・生物(医学)文献。生物(医学)文献数据库是已广泛为医学领域学者和研究者使用的数字资源,对于这些商品化的数字资源,已经进行了标引(注释大多采用人工标引方法),标引采用MeSH词表和基因本体(GO)。

・临床文献。对于临床文献,目前世界上通常使用国际疾病分类(ICD)系统进行编码,另外,SNOMEDCT正在被越来越多的国家作为电子健康档案的标准术语,除此之外可以使用MeSH进行注释。

・基因产物。在生物学中,需要对实验数据的功能性描述进行注释。如使用基因本体对实验中基因产物的功能注释,复用SNOMED CT和美国国家癌症研究所的NCI叙词表的OWL版本对组织微序列数据库中的数据进行注释,利用MeSH对基因表达库中的人类疾病进行注释。

在以UMLS为主导的多本体融合模式中,底层的数据源由各种医学知识本体进行语义标注,再借助于UMLS这一全局本体对已经进行了语义标引的数据进行语义互联。UMLS与各种叙词表、开源本体之间的映射借助于Lexical Grid(词汇网格)。Lexical Grid是美国梅奥医学中心生物医学信息学部设计的,旨在利用公共的工具、数据格式以及读取(更新)机制来弥补格式、配套工具以及编程接口方面的互不兼容问题,从中发挥桥梁和纽带的作用。Lexical Grid对有关资源的表达由一个单独信息模型实现,该信息模型可通过一套公共的应用编程接口(application programming inter-faces,APIs)加以访问(存取),这些APIs则是借助于共享型的索引加以联合,并且,这些索引可以在线下载、松散耦合、本地扩展、全局修订以及在网络空间和网络时间范围内现成可用,且彼此相互交叉链接。如图2所示:

4.3多本体融合的语义检索模式

以UMLS为主导的多本体数字资源语义互联系统的语义检索子系统运用UMLS本体对各种数字资源进行检索和浏览之后,对产生的检索结果进一步进行知识挖掘。用户提交检索词或检索式后,系统接受返回的检索结果,利用UMLS本体对检索结果进行词串鉴别、术语提取,最终到概念识别,通过数据挖掘,使检索结果成为进一步检索的候选检索词。

・将检索结果对应的概念转换成UMLS本体的类,并将检索结果与UMLS类对应起来,形成检索结果的可视化数据,此时的检索结果不仅仅是字符匹配,而是基于UMLS概念的检索结果分析。

・在检索结果导航中,根据UMLS本体概念之间的11种关系(如直接上位关系、直接下位关系等)提供扩检和缩检功能。

・在检索结果导航中,根据UMLS概念的语义关系(54种语义关系),提供概念与概念之间在语义关系上的反馈式检索方式。通过用户积极性反馈式的进一步选择与确认,进行检索结果的扩检与缩检,当然这一步需要用户具有相关知识。

・UMLS作为一种全局本体,通过概念映射到各个局部本体,进而形成检索结果导航模型。根据检索结果导航模型,检索结果被统计并对应到相应的UMLS分类导航目录和各本体的分类导航目录,用户可利用该导航目录快速找到自己所需要的文献。

该语义检索模式,提供以UMLS为主导的多本体检索结果分类概览,帮助用户实现基于概念的检索结果快速导航;自动提供与检索提问相关的术语;自动提供与检索提问相关的上位概念、下位概念和同位概念;自动提供与检索提问相关的概念之间的语义关系;自动提供与检索提问相关的准确的生物实体,从而提高检索的准确率和召回率。

4.4多本体融合的信息集成构架

信息集成分为:结构集成、语义集成和智能集成。以UMLS为主导的多本体融合模式以全局本体UMLS为中心纽带,在结构化集成的基础上,对信息间语义的关系实施深度挖掘和充分利用,进而完成语义级信息集成。一方面,通过提供医学领域的全局本体UMLS,为数据集成所需要的标准化提供支持,可将要集成的数据源转换成一种通用格式并将其转换为通用词汇。另一方面,围绕UMLS本体,可以定义数字资源语义互联全局架构,可根据全局框架进行语义查询,并在全局性架构和本地架构(要集成的数据源架构)之间进行映射。参考基于本体的信息集成系统TAMBIS,BioMediator、OntoFu-sion、ARIANE和MASBOI,结合基于语义模型的信息抽取概念模型,设计信息集成框架,如图3所示:

各组件的功能和作用如下:

・原始信息。包括临床数据、文献数据库、基因(蛋白质)数据库等结构化信息和半结构化信息数据源。

・信息抽取。从原始数据中经过自然语言处理(如MetaMap)抽取出词串和术语组织成元数据库。

・局部映射。将元数据中的词串和术语匹配到各个局部本体中。

・全局映射。一方面,以UMLS全局本体为标准。将局部本体映射到全局本体解决局部本体问的语义异构性问题,满足彼此间相互查询的需求;另一方面,UMLS提供了全局框架,将已匹配到局部本体中的元数据映射到UMLS概念中,满足对原始数据的语义标引需求。

・概念-关系分析器。对数据管理、本体学习、语义检索和知识发现的数据进行自然语言处理,对处理结果进行概念-关系分析,分析后依据全局映射匹配到UMLS中的概念和语义关系,匹配后交由推理机和查询接口。

・查询接口。一方面,是为用户提供的统一语义查询界面,用户借此提交查询关键词,提出查询请求;另一方面,将经过概念-关系分析的查询,提供给UMLS概念及概念间关系的可视化检索结果导航,再提供给用户。

・推理机。将经过概念-关系分析的术语进行UMLS概念匹配并建立概念矩阵,以发现新的概念间关系和新知识,新的概念间关系用于本体进化,新知识将被写入知识库。

5 医学数字资源语义互联的功能

医学数字资源语义互联不仅仅致力于为医学工作者提供基于语义的检索,更重要的是为用户、数字资源和程序之间建立理解一致的信息交互结构。医学数字资源语义互联模式的构建为医学信息处理提供了可共享的平台,使得针对临床工作者、医学科研人员和医疗保险的数据之间具有了语义互通的可能性。基于此,其功能不仅限于智能检索,还包括自然语言处理、本体学习、专业知识发现等。

5.1自然语言处理

自然语言处理(NLP)能自动识别文本中所感兴趣的实体名称,将数据库中的信息转化成人类可读的语言,自然语言处理将扩展互联的医学数字资源范围,从而使互联模式更机智能化。从自然语言处理系统处理的文本及处理技术两个角度来考虑,在生物医学领域,临床医学和分子生物学是两个最重要的内容子域。在临床的内容子域中,重点是疾病、解剖学、病因和治疗以及这些现象之间的互动。因此,语义处理对概念和关系识别后,还需将所处理的文本内容映射到一定的知识结构。利用生物医学本体所提供的丰富词源可开发出许多自然语言处理系统。以UMLS为主导的多本体数字资源语义互联系统为满足大规模文本处理的需求,利用了美国国家医学图书馆(NLM)研发的在线工具――语义知识表征。

・SKR是由美国国家医学图书馆研发的项目,该项目致力于在图书馆现有资源基础上建立生物医学自由文本上可用的语义表达。SKR系统的核心组件是MetaMap,如图4所示:

SKR/MetaMap对自由文本进行语义层次的分析且是基于语境的语义分析。MetaMap使用知识密集型的方法,包括符号、自然语言处理和计算语言学等技术,是一个把生物医学文本与UMLS超级词表中的概念匹配起来的程序,MetaMap的自动文本映射可将文本解析成名词短语,形成词串,对词串按照阈值形成Meta映射候选集。SKR/SemRep也是为了发现生物医学研究文献中的语义命题而开发的,通过语法分析和UMLS的领域知识识别出自由文本中的实体,用来提取生物医学文献中的语义假设。

・以UMLS为主导的多本体语义互联系统的自然语言处理系统,读入MetaMap处理后的数据,将形成的Meta映射候选匹配到全局本体UMLS概念上,之后对自由文本进行基于概念的语义标注,供语义检索子系统使用。

5.2智能检索

医学数字资源语义互联模式能够实现不同程度的智能检索功能:①以UMLS为主导的多本体融合模式,提供了概念关系级别的知识组织体系,全局本体与局部本体的映射融合,易实现概念级别的扩检与缩检,易进行概念组合的描述,易梳理出概念关系,从而不断逼近检索;②语义互联模式提供了反馈式检索方式,能加深人机互理解程度;③数据存储形式为RDF的三元组形式,这种形式方便推理,支持概念语义的查询。

5.3本体学习

本系统中的知识发现涉及到本体准备、本体扩充、事例选择、本体挖掘和本体进化几个阶段。知识发现通过主成分分析、独立成分分析、神经网络和统计学方法等数据分析技术以及二维、三维和散点图等可视化方法,能够帮助用户发现概念间的新关系,丰富本体中类的语义关系。另一方面,4.2中所提到的三类标引内容包括生物(医学)文献、临床文献和基因产物,这些数据来自不同领域,但是通过UMLS而相互连通,从而在临床试验设计、地理学和人口学数据、流行病学数据、药物、治疗以及基因等不同领域的数据中进行集成,将分散的事实连接成新的概念和关系,使本体通过互操作实现本体学习。

5.4知识发现和专业知识聚类

医学数字资源语义互联中的自然语言处理系统利用MetaMap,对读入的MetaMap文本数据进行统计,基于UMLS统计出术语的概念信息,形成概念共现矩阵,利用聚类分析软件,对概念间的关系进行可视化表现,进行直观的概念关系梳理和知识挖掘;并将针对同一目的所产生的不同事实和观点联系起来,形成新的概念和假说,从而辅助知识发现。

6 结语

数据通信基本概念篇5

【关键词】本体;语义检索;元数据

1.引言

随着互联网与信息技术的发展,信息化的越来越深入到工作与生活的各个层面,随之而来的是信息量的急剧膨胀。由于信息处理技术的发展,如何从海量的信息中高效快速、准确地检索到所需信息已经成为计算机领域研究的一个热点问题。信息检索就是从信息集合中找到用户所需信息的过程。在实践中,传统的基于关键词的检索方法主要通过把表征用户查询请求的关键词与表征信息内容的索引词进行严格机械匹配进行的。由于一义多词和一词多义现象的存在,缺乏语义理解能力,致使表示查询请求的关键词和用户的真实需求之间,关键词和索引词之间会存在多重表达差异,从而导致查询结果检准率低、误检率高。为此,本文将研究研究面向本体的智能信息检索技术,并以此为基础构建一个系统模型,通过建立本体库与元数据库来准确映射信息资源,实现了对查询条件进行了语义层面的处理,从而提高检索效率。

2.信息检索与本体

2.1 信息检索

信息检索Information Retrieval)这个术语产生于Calvin Mooers1948年在MIT的硕士论文。信息检索是指将信息按照一定的方式组织和存储起来,并针对用户的需求找出所需信息的过程,又称为“信息存储与检索”[1]。从广义上讲,信息检索包括存储过程和检索过程,对用户来说,往往仅指查找所需信息的检索过程。 信息的存储主要为对一定专业范围内的信息进行选择, 并在此基础上进行信息特征描述、加工并使其有序化,即建立数据库。检索是借助一定的设备与工具,采用―系列方法与策略从数据库中查找出所需信息。在现代信息技术环境下,信息检索从本质上讲,是指人们希望从一切信息系统中迅速、准确地查找到自己感兴趣的有用信息,而不论它的出现形式或媒体介质[2]。

伴随着Internet的广泛应用,网络上的资源呈现出海量、无序的特点,给传统基于关键词匹配的信息检索带来了局限性:对所需检索的目标不能准确描述;无法量化检索目标与候选者间的符合程度。为此,本文提出的基于本体的语义信息检索,利用本体描述语义检索模型中的语义信息,对信息资源进行准确的语义标注,实现语义层面的检索,从而有效提高查全率和查准率。

2.2 本体

2.2.1 本体基本概念

本体(Ontology)是指对世界上事物的基本描述其概念起源于哲学领域 它在哲学中的定义为对世界上客观存在物的系统地描述,即存在论,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质,后来随着计算机科学技术的发展,本体的概念被引入计算机工程。从本体的哲学内涵出发,结合计算机工程领域的特点,斯坦福大学知识系统实验室(KSL)的Gruber于1993年在概念化(conceptualization)这一重要的定义基础上提出了第一个广泛被接受的定义:本体是一个明确定义的概念化规范[3]。Gruber把本体解释成共享概念化的明确的形式化规范。共享体现了本体获取领域知识,能够被多个人和系统共同接受:概念化是一个的结构,D是领域、R是D上的集合和相应关系,是现实世界的抽象模型;形式化是指本体能够被机器理解和学习;明确则是要清晰地定义概念和概念之间的关系。1998年,Guarino修订了Gruber的定义,引入了统称为概念关系的内涵关系,将本体定义为“本体论是一个逻辑理论,用来说明一个正规词汇表的逻辑含义[4]。2001年,Zuniga折中了两种定义,提出信息系统本体论应该是“特定的形式化语言产生的清晰公理理论[5]。关于本体,在信息系统理论界还有很多代表性的定义,但总体来说,本体都是用于表示信息系统中隐含或不明确的信息,以便使知识的共享和复用成为可能。

2.2.2 本体的构建

构建本体时,根据各自问题域和具体工程的不同 形成了不同的构建方法。这些方法有TOVE法、METHODOLOGY方法、骨架法、KACTUS工程法、SENSUS法、IDEF5方法和七步法[6]。其中最具参考价值的方法是骨架法。构建本体的核心在于严格确定领域内的术语、属性、关系和规则等,确立术语间的语义网络,建立术语库和关系库,并用规范化、形式化的语言进行描述和存储,使计算机能够识别和处理[7]。其主要步骤是 确定构建本体的目的和范围;构建本体(分为本体获取、本体编码和本体重用本体评估);使用本体语言对本体进行描述。

目前用于构建本体的工具很多,比较常见的有Ontolingua、Ontosaurus、WebOnto、protege、OntoEdit等。其中Ontolingua和WebOnto均只支持在线编辑 而且必须是注册用户才可以使用Ontosaurus是一个可以对用Loom编写的知识库和本体进行浏览的Web浏览器,其文库中只有少量可以使用的本体,对初学用户不易使用;protege则是一个可以免费下载的、具有图形化用户界面的、可在本地运行的本体构建工具;OntoEdit也是一个在本地运行的免费程序 但必须注册后由网管人员给用户提供用户名和密码。在这5种工具中protege有它明显的优势,因而现在的本体构建大多都是使用protege来实现的[8]。

2.2.3 本体的描述语言

OWL(Web Ontology Language)是W3组织推荐的本体描述语言,基于XML、RDF和RDF Schema建立。OWL相对XML、RDF和RDF Schema拥有更多的机制来表达语义,从而超越了XML、RDF和RDF Schema。OWL是最新的Web本体语言标准。2002年7月,W3C组织公布了网络本体描述语言(Web

Ontology Language,OWL)的工作草案1.0版,2003年8月该工作草案发展成 W3C的候选建议,在2004年的2月10号,OWL成为W3C正式推荐的标准。

OWL 已经发展成公认的未来的Web本体语言标准。OWL增加了更多的词汇用于描述更多的语义特征:如类之间的关系;基数;相等关系;更丰富的属性类型;属性特征和枚举类。OWL提供了比XML、RDF和RDF模式更强大的功能,在它们的基础上增加了自己的带有形式语义的词汇[9]。

3.语义检索系统模型模型

3.1 基于本体的语义检索系统设计

本体系统模型主要分为三个模块:用户查询模块、本体管理模块、元数据管理模块,其系统结构如图1。

本系统模型的建立步骤的基本步骤可归纳如下:

(1)利用本体编辑器工具建立相关领域的本体。

(2)对收集的信息资源进行本体元数据标注:各种信息资源如PDF、Web网页等,根据已建立的领域本体实体进行元数据标注。使用RDF或OWL语言对信息资源进行语义层面表示和描述,然后将其按照一定的格式存储在元数据库中。

(3)根据用户检索界面提交的概念,在理解用户需求的基础上,语义检索引擎借助解析推理工具对用户请求进行概念分析和语义相关性推理,然后检索并对已进行本体元数据标注的信息资源库进行检索,最后将检索结果通过反馈给用户检索界面输出。

(4)设计用户检索界面:对用户的检索输入并进行概念提取,并将分析结果传递输出给语义检索引擎;在本体的帮助下匹配出符合条件的数据集合,把检索结果经过定制处理后返回给用户。

3.2 本体库的构建

一个本体可由概念、分类层次、关系、函数、公理和实例六种元素组成。本体中的概念是广义上的概念,除了可以是一般意义上的概念以外,也可以是任务、功能、行为、策略推理过程等等[10]本体中的这些概念通常构成一个分类层次本体中的关系表示概念之间的关联,这种关联表现了除分类层次关系之外的概念之间的所有联系 本体中的函数是一种特殊的关系 公理在许多领域中,表示函数之间或关联之间也存在着关联或约束 实例是指属于基本概念类的基本元素,即某概念类所指的具体实体,特定领域的所有实例。根据本体的形式化描述,构建领域本体库的步骤如图2所示。

本体的建立可以通过调用本体本体编辑器工具建立相关领域的本体,创建相应的本体类和属性。应用本体可看作领域本体在数据源上的映射,是将数据源中的异构数据转换成由OWL来描述的本体实例得到的,具体实现时,可以首先创建一个OWL文档,然后每取得一个元数据信息,就将其作为一个子结点插入到 OWL 文档中,并且插入元数据的属性信息。然后,通过本体解析工具,把应用本体存入到数据库中(比如MySQL)。另外,还可以将OWL描述的本体转化成RDF三元组,并存入RDF三元组库中。一个复杂的由OWL定义的类或属性可以表示成一个或多个相应的RDF三元组。

3.3 语义匹配与语义推理

构建了查询本体后,为了进行有效的语义推理,可以根据领域本体和应用本体所定义出的语义关系,并根据相关的存放在知识库中的语义规则集进行相似度匹配推理计算本体相似度的方法有很多,基本上都是以分别属于不同本体(查询本体和应用本体)的实体之间配对比较

来实现,常用的方法如下:

(1)根据聚类原理及空间向量夹角的余弦公式进行本体之间概念、属性等相似计算。

(2)从图论和树的角度来比较两个本体的异同,如WordNet[11]就是基于概念图的本体表示方法。

(3)根据数据库领域模式匹配的理论,基于字符串匹配或字符串之间的编辑距离来比较两个本体的异同。

(4)依据谓词逻辑及机器学习的理论进行本体的相似度匹配,如使用一阶谓词逻辑的描述逻辑进行匹配。

(5)根据语法和语义进行比较,如借助于类似于WordNet的词典进行同义词的判定,根据领域、需求及粒度的划分定义好本体之后,需要用本体相似度的匹配理论进行本体之间相似度的计算,主要考虑本体之间概念 属性及关系的相似度时,可以使用本体推理机辅助计算。语义推理模块接受上一步中标注的检索词,结合推理规则,利用推理机进行语义推理,查询本体库,同时利用推理引擎进行语义推理,得到检索词之间的语义关系,最终产生标准的查询语句用于进一步的信息查询。目前常用的推理机有Jena、Racer和Jess[12]。

3.4 元数据库

建立元数据,就是通过对各种非结构化得信息资源进行语义描述,使信息资源在语义理解上避免歧义、多义,使其具有规范性和可操作性。国际上应用广泛的元数据标准是都柏林元数据核心(Dublin Core Metadata)[13],而国内元数据标准有《DA/T46-2009 文书类电子文件元数据方案》。

建立元数据库的基本过程就是使用本体元数据标注,根据一定的规则和程序,对文档内容进行分析,然后给每篇文档赋予一定数量的内容标示,作为存储与检索的依据。为了便于检索,可以使用RDF或OWL语言对信息资源进行语义层面表示和描述,然后将其按一定的格式存储在元数据库(关系数据库、知识库等)中,从而建立了元数据库。

在本系统中,引入元数据机制,在概念层的下层形成元数据层。这样,概念层可以直接引入元数据模式作为特定概念类的属性集,也可以在某概念集中引入某个描述性元数据模式及其定义作为概念类。通过这种元数据引入机制,可以将特定应用的语义元数据集成到语义层次模型中。以设备资源为例,其设备资源信息包括名称、类型、所属企业、规格等元数据信息,可以根据设备类型将这些元数据分配到其所对应的概念节点下,作为此概念节点的一个资源实例。如果这个概念同时还与企业信息存在关联,那么也可以将其中相关的元数据作为其概念的数据实例。这样,元数据库中信息可以作为本体类的一个实例映射到上层的本体库中,从而使非结构化信息资源可以利用本体的语义方面的特性实现在语义层面的查询。

本文针对传统的基于关键字的信息检索中缺乏知识表示和语义处理能力的缺陷,提出了一个基于本体的语义检索系统模型。本体在智能信息检索系统中提供了必须的元语,该元语能够生成有效的查询与资源表述,使用语义标签对非结构化的信息进行描述,生成元数据,并且利用元数据库对为元数据进行统一存储管理,使检索系统可以使用语义层面的检索,并且利用语义推理机制,为终端用户的检索返回更有效的结果。总之,基于本体的语义Web信息检索技术可以使Web信息检索能更加个性化、人性化、智能化、多样化,在将来一定会得到进一步的应用和发展。

参考文献:

[1]李梅,王庆林.中文全文检索技术的研究及实现[J].情报学报,2003,22(1).10-17.

[2]孙建军,等.信息检索技术[M].北京:科学出版社,2004.

[3]TRGruber A transation approaeh to portable ontology speeifieations,Stanford University,TeehReP:Logic-92-1,1993.

[4]邓志鸿,唐世渭,张铭,杨冬青,陈捷.Ontology研究综述[J].北京大学学报,2002(9).730.

[5]李善平,等.本体论研究综述[J].计算机研究与发展,2004(7).

[6]杜文华.本体构建方法比较研究[J].情报方法,2005(10).24.

[7]Mariano Fernandez Lopez. Overview of methodologies for building Ontologies[C]. In Proceedings of the IJCAI-99 Workshop on Ontologies and Problem Solving Methods, 1999.

[8]杜文华,董慧本.本体建设工具比较研究[J].情报杂志,2005(02):5-7.

[9]OWL Web Ontology Language Overview.省略/TR/owl-features/.

[10]石静,肖航宇,熊前兴.基于SWRL规则与本体相似度的语义检索模型研究[J].计算机应用与软件,2010(7):236-273.

[11]WordNet 3.0 Reference Manual. wordnet.princeton.edu/wordnet/Documentation.

数据通信基本概念篇6

关键词:分布式;多媒体信息系统;概念建模;UML;本体

中图分类号: TP271+、31 文献标识码:a DoI: 10.3969/j.issn.1003-6970.2012.02.014

Research on the Conceptual Modeling Method in Distributed Multimedia Information System fU Da-jie(Jiangxi Vocational College of Finance and Economics, Jiujiang, Jiangxi, 332000)

【Abstract】Conceptual modeling is the important technology to improve the quality of demand analysis. There are problems in the

distributed multimedia information system, which include heterogeneity, different forma of mass data and time-space inconsistency. this paper introduces some common conceptual modeling methods such as structured conceptual modeling, object-oriented conceptual modeling and ontology conceptual modeling, then describes and represents the concept model of the distributed multimedia internet teaching system using UML class diagram, and establishes the translation of UML class diagram to ontology model.

【Key words】Distributed; Multimedia Information System; conceptual modeling; UML; ontology

0 引 言

多媒体信息系统涉及文字、图形、图像、动画、音频、视频等各种信息媒体,特别是分布式多媒体系统,其数据结构的复杂性、系统功能的多样性、交互实现的实时性对系统提出了更高、更新的要求,从而加剧了系统开发的难度。实证研究表明在系统开发过程中一半以上的错误是由需求的不准确和不完整引起的,在开发的早期阶段的质量保证要比在末端测试的效益高出33倍多[1]。而概念建模是提高需求分析的质量的重要技术。研究多媒体信息系统概念建模方法,对于多媒体信息系统的开发、引进、改造、标准化和集成都具有积极的质量保证作用。

1 分布式多媒体信息系统概念建模面临的问题

文献[2-6]从不同角度对概念建模进行了定义,不难发现,信息系统的概念建模是并不考虑系统底层的具体实现技术,它从需求的角度表述了系统的主要特征并形成抽象的轮廓。对于多媒体信息系统而言,概念建模并不涉及到媒体存储、转换、检索等相关的技术问题,但需考虑媒体的相关应用和类型。要在一个分布式多媒体信息系统中实现各种多媒体对象的集成、同步、交互和展现,就必须为其建立一个独立于现实环境的抽象的表示模型。当前,分布式多媒体信息系统概念建模主要面临如下问题:

(1)分布式系统的异构性。分布式多媒体信息系统的跨平台的特点,涉及不同的计算机体系结构、不同的操作系统、不同的网络协议标准和不同的数据库,从而产生各种异构,导致应用系统开发的复杂化。

(2)海量数据存储和格式的差异性。多媒体数据有别于一般数据,它集成多种形式的内容,其数据量是海量(MASS DATA),数据量大,且数据格式差异极大,不利于信息系统的组织和存储,增加了数据处理的难度。

(3)时空的不一致性问题。很多多媒体数据带有时间属性和空间属性,如音频数据、视频数据、图形数据,在分布式多媒体信息系统中,由各计算节点的计算延时、网络传输延时、节点空间坐标系不同等容易造成的时空不一致问题,从而影响概念建模的准确性和适应性。

2 分布式多媒体信息系统概念建模方法介绍

概念建模方法是提供使用概念建模语法的程式,通常主要规定如何把对一个领域的观察结果映射为概念模型[7]。从上世纪70年代起新的概念建模方法开始激增,据不完全统计,大概有1000多种概念建模方法,而且每年还在不断地增长[8]。文献[9-11]结合应用领域对概念建模方法做了实践性研究,从理 论上讲,当前概念建模方法主要有三种:结构化概念建模、面向对象概念建模、本体概念建模。

(1)结构化概念建模。即根据“自顶向下、逐步细化、模块化设计”的思想,将采用自顶将整个系统功能划分成一系列实现独立功能且可相互调用的模块,用模块结构关系来表示系统模型。但其存在“需求冻结”的隐患,不适合结构复杂的分布式多媒体信息系统。

(2)面向对象概念建模。使用类、对象、继承和消息机制进行概念建模。分析阶段通过类或对象的认定,确定类之间(或对象间)关系,然后对它们的属性、所提供的方法和所需要的方法进行描述,并按照它们之间的关系进行组织,得到类(或对象)结构。面向对象概念建模,就是要将类和对象映射为概念,只要找出类和对象并建立了类结构,也就建立了概念模型[12]。面向对象建模单个对象表示的行为粒度过于精细,难以把握问题的实质和总体结构,容易造成系统结构不合理及各部分关系失调等问题。

(3)本体概念建模。通过对静态的领域本体和动态的任务本体两个部分进行分析描述,并结合用户需求分析,获得语义层面上的概念模型;借助本体描述语言及建模工具将概念化的实体与过程图形化表达,形成具体的功能模型 [13]。本体作为共享概念形式化建模工具,可增强系统模型的语义表达能力,以便更好的消除语义差异,实现不同系统间的知识共享和互操作,是未来建模技术的发展方向和趋势[14]。

3 分布式多媒体信息系统概念建模实践

通过上述介绍,可以发现几种概念建模方法各有所长,下面笔者以分布式多媒体网络教学系统中课程实例为例,简要说明面向对象概念建模念建模方法与本体概念建模方法的具体应用。

3.1 基于UML的面向对象概念建模

UML是国际对象管理组织OMG制定的可视化建模语言标准,主要用于面向对象建模,UML的核心是以面向对象思想来描述客观世界,即通过类图、构建图、部署图等表示系统静态结构的静态模型和对象图、用例图、顺序图、协作图、状体图、活动等表示系统动态结构的动态模型来描述系统的及其内在的联系。其中,UML类图是面向对象概念建模的核心,对于系统的核心概念,用类、属性和方法表示,概念间的关系主要采用聚合、组合、泛化(继承)以及依赖、关联等关系来表达。

基于UML的概念建模,主要用于系统需求与分析阶段人与人之间的沟通交流,它只对问题域的对象(现实世界的概念)建模,而不考虑定义系统中技术细节的类(如处理用户结构、数据库、通信和并行性等问题的类),从这一点上来讲,分布式多媒体信息系统比较适合采用基于UML的面向对象概念建模。同时,UML统一了Booch、OMT和其他面向对象方法的基本概念和符号,汇集了面向对象领域中的多种思想,为概念模型的表达提供了科学的、通用的、标准化图形符号表示,并能被交互的可视化建模工具所支持,使得领域内的系统相关者都可以通过概念模型了解相关概念。另外,UML包括概念的语义、表示法和说明,提供了静态、动态、系统环境及组织结构的模型。图1为网络教学系统中用类图表示的用户(User)概念模型。

图1 网络教学系统用户(User)类图

3.2 类图与本体模型的转换

在信息系统领域,本体的核心是描述领域的本质概念及其之间的关联,是领域共享概念模型的形式化规范说明[15]。本体表达的概念间关系通常包括部分关系、所属关系、实例关系、属性关系。比较本体与UML类图,可以看出:本体中的类或概念相当于UML中的类,以及类的属性和方法;本体中的基本语义关系可以与UML类图中的关系相对应,比如,部分关系可以对应类图中的聚合或者组合关系,所属关系对应类图中的泛化(继承)关系,实例关系可以对应UML中的类与对象的关系,属性关系实际上对应一个类图中类与其本身属性的所属关系[16]。将图1中的类图转换为本体模型如下:

O-User =

至于本体概念建模的实现,一般采用OWL(Web Ontology Language)标准描述语言完成。OWL本体包括类、属性和它们的实例(即个体)的描述,通过采用OWL对复杂的跨平台、异构性的分布式多媒体信息系统系统概念模型及其之间的联系进行形式化描述,使得系统概念模型表达为语义和语法准确规范的领域本体,能够被计算机自动识别处理,在同一领域不同信息系统之间共享知识,从而有效保证分布式多媒体信息系统的最终质量。具体实现可参考其他相关文献[18-19]。

4 结束语

信息系统建模,实际上是对信息系统进行认识、描述、分析并抽象表示的过程。对于复杂的分布式多媒体信息系统,如何综合权衡各种概念建模方法利弊,“择其善者而从之,其不善者而改之”,直接影响了未来系统质量。本文结合UML类图对面向对象概念建模和本体概念建模做了具体的实证分析,下一步笔者将结合OWL语言针对分布式多媒体信息系统建模做进一

步研究[19]。

参考文献

[1] Moody DL,Shanks GG.Improving the quality of data models: empirical validation of a quality management framework[J], Information Systems,2003,28(6):619-650.

[2] Mylopoulos J.Conceptual modeling and telos.Loucopoulos P,Zicari R.Conceptual modeling,database,and case:an integrated view of information systems development[J].Wiley,New York,1992.49-68.

[3] 孙凡.信息系统概念建模方法绩效评价的研究[J].计算机系统应用,2009,(4):15-17.

[4] 吴永波,何晓晔,谭东风,等.军事概念模型研究综述.系统仿真学报, 2005, 17(12): 3076-3080.

[5] Horrocks I, Patel-Schneider P F, Harmelen F V. From SH I and RDF toOWL:The making of a web onto logy language[J]. Journal of Web Semantics, 2003, 1(1): 7-26.

[6] GrahamWidemana.ConceptModeling: What It Is, and where’s The Software? -Intelligence and Change in Enterprises [EB/OL].[1999-03].http:省略.

[7] Wand Y,Weber R.Research Commentary: Information Systems and Conceptual Modeling--A Research Agenda. Information Systems Research,2002,13(4):363-376.

[8] Siau K, Rossi M.Evaluation of information modeling methods a review [J]. System Scences,1998,5:314-322.

[9] 贾美英,杨炳儒,张文海,等.情报信息系统概念模型建模方法研究[J].情报研究,2009,53(22):35-39.

[10] 谢春燕,李为民.区域反导组网作战战术信息分发系统军事概念建模研究[J]. 军事运筹与系统工程,2005,19(3):34-35.

[11] 华玉光,徐浩军,刘凌,等.军事体系对抗复杂系统概念建模方法[J].系统仿真学报,2008,20(23):6507-6510.

[12] 徐宝祥,刘爽. OOA在信息系统中概念建模方法[J].情报科学,2001,19(1):66-68.

[13] 张维明.信息系统建模[M].北京:电子工业出版社,2002:35-53.

[14] 唐晓波,韦贞,徐蕾.基于本体的信息系统建模方法[J].情报科学,2008,26(3): 391-395.

[15] 曾宪文,陈向东,杨明福.基于UML的本体建模研究[J].计算机应用与软件,2006,23(7): 42-43.

[16] 严璐,李利.从UML类图到本体的自动映射[J].科学技术与工程,2008, 8(13): 3645-3648.

[17] 冉婕,,昌霞,等基于OWL的成语典故本体构建研究[J].计算机技术与发展,2010,20(5): 63-64.

数据通信基本概念篇7

关键词:本体;本体检索;语义相似度计算

1 引言

随着internet的日益发展和普及,本体在信息采集、信息检索及本体集成等方面的应用越来越广泛。2002年12月18日berners-lee在国际xml2000的会议提出semantic web(语义网)的构想[1]。在semantic web中,语义相似度算法是实现基于本体的检索、采集等的关键问题。因此语义相似度算法的好坏成为信息检索效率高低的重点,于是改良语义相似度算法是一个迫切的问题。

关于语义的相关性,国内外专家已经做了大量的工作:resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。agirre等在利用wordnet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到概念层次树的深度、概念层次树的区域密度。鲁松研究了如何利用词语的相关性来计算词语的相似度。li sujian等提出了一种词语语义相似度的计算方法,计算过程综合利用了《知网》和《同义词词林》。朱礼军等引入了计算语言学中的语义距离思想来计算领域本体中概念间的相似度。

本文总结前人的经验,并将概念的数据类型考虑其中,这样概念的语义相似度就更加精确。

2 本体与领域本体

本体(ontology)作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和web上异构信息的处理、语义web等。www.133229.Com

2.1 本体的概念

目前对本体的定义有很多,专家们认为由studer等人在1998年提出的“本体是共享概念模型的明确的形式化规范说明。[3]”最为精确。它包含4层含义:概念化(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。

(1)概念化:指通过抽象得出客观世界中一些现象(phenomenon)的概念模型。

(2)明确:指所使用的概念及使用这些概念的约束都有明确的定义。

(3)形式化:指本体是计算机可读的(即能被计算机处理)。

(4)共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。

2.2 本体的分类

guarino[5]在1997年对本体依照领域依赖程度,分为顶级(top-level)、领域(domain)、任务(task)和应用(application) ontologies共4类。其中:

(1)顶级ontologies描述的是最普通的概念及概念之间的关系,与具体的应用无关,其他种类的ontologies都是该类ontologies的特例。

(2)领域ontologies描述的是特定领域中的概念及概念之间的关系。

(3)任务ontologies描述的是特定任务或行为中的概念及概念之间的关系。

(4)应用ontologies描述的是依赖于特定领域和任务概念及概念之间的关系。

本文主要就是基于领域ontology来设计与研究语义相似度计算方法。

3 语义相似度计算

语义相似度是判断几个概念之间的语义的相似程度。在信息检索中,它反映的是用户查询关键词的意义上的符合程度。

3.1 语义相似度计算原则

语义相似度的计算原则是为了本体内部概念间相似度计算更加准确而提出的[2],其内容如下:

(1)量化原则:相似度是一个数值,取值范围应该在[0,1]之间[3],如果两个概念完全相同,那么他们的相似度为1,完全不同,相似度为0。

(2)简单性原则:计算相似度的同时应该考虑计算复杂度[4],复杂度应该尽量降低。

(3)充分利用本体的特性。

(4)可调节性:可调节性是指相似度的计算结果可通过某些参数来调节,词语相似度是一个主观性比较强的概念,可调节性可以满足不同的需求,适应不同的情况[2]。

(5)类型性:在计算概念相似度的时候,也应该将概念的数据类型考虑其中,这样能提高概念相似度的精度。

(6)对称性:sim(c1,c2)= sim(c2,c1),对称性有利于概念相似度之间的对比与换算。

3.2 相似度计算方法

本文建立了一个简单的医疗系统的本体,如图1所示。class:表示的是类,subclassof:表示的是本体中最主要的关系,即概念之间子类的关系,也就是继承关系。例如:c0是c1,c2的父类,而c1与c2则是c0的子类。

利于owl语言构建此本体的代码片段,如下:

xmlns:rdf="/1999/02/22-rdf-syntax-ns#"

xmlns:xsd="/2001/xmlschema#"

xmlns:rdfs="/2000/01/rdf-schema#"

xmlns:owl="/2002/07/owl#"

xmlns="/ontology1243997987.owl#"

xml:base="/ontology1243997987.owl">

……

……

(1)语义距离:是两个概念在本体树中的最短距离,记作distant(a,b)。①语义距离越大,其语义相似度越低。反之越大。②两个概念的父节点是同一个,那么distance=1/n(n表示与该节点有共同父节点的子节点的个数)③同一概念的语义距离为0。例如:图1中所示的distance(c5,c5)=0,distance(c7,c8)=0.5。

(2)datatype(数据类型属性)的相似度:是两个概念的数据类型的比较得出来的一个参数值,记作simdt(a,b)。如果两个概念的数据类型相同,则simdt(a,b)=1。如果不同,则simdt(a,b)=0。

(3)objectproperty(对象类型属性)的相似度[5]:是类与类之间的关系,记做simobject(a,b)。和分别表示概念和的对象类型属性的个数。 的对象类型属性所对应的概念为,的对象类型属性所对应的概念为,则概念的对象属性的语义相似度为:

(4)本体概念的深度:是概念在本体树中的层数,记作depth(a)。

(5)调节因子:是为了满足系统的特定需要而设定的特定参数。由于词语相似度是一个主观性比较强的概念,所以必须使用调节因数来具体情况具体分析。它通过对本体树的广度与深度的控制来调节特定的语义的相似度。本文用k来表示调节因数。

综合得出语义相似度算法的公式:

式中sim(c1,c2)表示概念c1、c2的语义相似度,distance(c1,c2)表示概念c1、c2的语义距离,simdt(c1,c2)表示概念c1、c2的数据类型的相似度,simobject(c1,c2)表示概念c1、c2的对象类型的相似度,k表示调节因子,depth(c1)表示c1的的深度(即本体树中的层数),分别是数据类型属性和对象类型属性在属性相似度中的权值,,且。

3.3实验结果

根据本文得出的语义相似度算法,即上述公式计算出表1所示的本体树的语义相似度。

3.4 基于本体语义相似度的应用

begin;

input:查询表达式 q={w1,w 2,……,wn} and 语义相似度的临界值k;

result = null,i=0;

while(q[i]的语义相似度>=k){

result[i]=q[i]+相关概念集;

i++;

}

return result;

end;

4 结束语

人与机器之间的有语义的交流近年来成为了人们研究的焦点与瓶颈。本体由于其共享性和明确性以人与机器的语义交流的基础进入了人们的视野。本文通过建立本体树,利用其层次之间的关系来设计概念的语义相似度算法。同时将概念的数据类型与对象类型也考虑其中,这大大提高了概念的语义相似度算法的精度。但是由于本文只考虑了基于单个本体的相似度算法,不能满足多个领域本体间概念的相似度算法。在以后的研究中,会将此算法扩展到多个领域来设计,以便大幅度提高概念的语义相似度的精度,进而优化基于本体的信息检索及信息采集。

参考文献

[1]berners-lee t,hendler j,lassila o.the semantic web[j].scientific american, 2001,284(5):34-43.

[2]李鹏,陶兰.一个改进的本体语义相似度计算及其应用[j].计算机工程与设计,2007,28(1):226-228.

[3] 刘建,李素建.基于《知网》的词汇语义似度计算[j].中文计算机语言学, 2002,7(2):59-76.

[4] andreasen

数据通信基本概念篇8

关键词:本体;本体检索;语义相似度计算

1 引言

随着internet的日益发展和普及,本体在信息采集、信息检索及本体集成等方面的应用越来越广泛。2002年12月18日berners-lee在国际xml2000的会议提出semantic web(语义网)的构想[1]。在semantic web中,语义相似度算法是实现基于本体的检索、采集等的关键问题。因此语义相似度算法的好坏成为信息检索效率高低的重点,于是改良语义相似度算法是一个迫切的问题。

关于语义的相关性,国内外专家已经做了大量的工作:resnik根据两个词的公共祖先节点的最大信息量来衡量两个词的语义相似度。agirre等在利用wordnet计算词语的语义相似度时,除了结点间的路径长度外,还考虑到概念层次树的深度、概念层次树的区域密度。鲁松研究了如何利用词语的相关性来计算词语的相似度。li sujian等提出了一种词语语义相似度的计算方法,计算过程综合利用了《知网》和《同义词词林》。朱礼军等引入了计算语言学中的语义距离思想来计算领域本体中概念间的相似度。

本文总结前人的经验,并将概念的数据类型考虑其中,这样概念的语义相似度就更加精确。

2 本体与领域本体

本体(ontology)作为一种能在语义和知识层次上描述信息的概念模型,自被提出以来就引起了国外众多科研人员的关注,并在计算机的许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和web上异构信息的处理、语义web等。

2.1 本体的概念

目前对本体的定义有很多,专家们认为由studer等人在1998年提出的“本体是共享概念模型的明确的形式化规范说明。[3]”最为精确。它包含4层含义:概念化(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。

(1)概念化:指通过抽象得出客观世界中一些现象(phenomenon)的概念模型。

(2)明确:指所使用的概念及使用这些概念的约束都有明确的定义。

(3)形式化:指本体是计算机可读的(即能被计算机处理)。

(4)共享:本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。

2.2 本体的分类

guarino[5]在1997年对本体依照领域依赖程度,分为顶级(top-level)、领域(domain)、任务(task)和应用(application) ontologies共4类。其中:

(1)顶级ontologies描述的是最普通的概念及概念之间的关系,与具体的应用无关,其他种类的ontologies都是该类ontologies的特例。

(2)领域ontologies描述的是特定领域中的概念及概念之间的关系。

(3)任务ontologies描述的是特定任务或行为中的概念及概念之间的关系。

(4)应用ontologies描述的是依赖于特定领域和任务概念及概念之间的关系。

本文主要就是基于领域ontology来设计与研究语义相似度计算方法。

3 语义相似度计算

语义相似度是判断几个概念之间的语义的相似程度。在信息检索中,它反映的是用户查询关键词的意义上的符合程度。

3.1 语义相似度计算原则

语义相似度的计算原则是为了本体内部概念间相似度计算更加准确而提出的[2],其内容如下:

(1)量化原则:相似度是一个数值,取值范围应该在[0,1]之间[3],如果两个概念完全相同,那么他们的相似度为1,完全不同,相似度为0。

(2)简单性原则:计算相似度的同时应该考虑计算复杂度[4],复杂度应该尽量降低。

(3)充分利用本体的特性。

(4)可调节性:可调节性是指相似度的计算结果可通过某些参数来调节,词语相似度是一个主观性比较强的概念,可调节性可以满足不同的需求,适应不同的情况[2]。

(5)类型性:在计算概念相似度的时候,也应该将概念的数据类型考虑其中,这样能提高概念相似度的精度。

(6)对称性:sim(c1,c2)= sim(c2,c1),对称性有利于概念相似度之间的对比与换算。

3.2 相似度计算方法

本文建立了一个简单的医疗系统的本体,如图1所示。class:表示的是类,subclassof:表示的是本体中最主要的关系,即概念之间子类的关系,也就是继承关系。例如:c0是c1,c2的父类,而c1与c2则是c0的子类。

利于owl语言构建此本体的代码片段,如下:

xmlns:rdf="/1999/02/22-rdf-syntax-ns#"

xmlns:xsd="/2001/xmlschema#"

xmlns:rdfs="/2000/01/rdf-schema#"

xmlns:owl="/2002/07/owl#"

xmlns="/ontology1243997987.owl#"

xml:base="/ontology1243997987.owl">

……

……

(1)语义距离:是两个概念在本体树中的最短距离,记作distant(a,b)。①语义距离越大,其语义相似度越低。反之越大。②两个概念的父节点是同一个,那么distance=1/n(n表示与该节点有共同父节点的子节点的个数)③同一概念的语义距离为0。例如:图1中所示的distance(c5,c5)=0,distance(c7,c8)=0.5。

(2)datatype(数据类型属性)的相似度:是两个概念的数据类型的比较得出来的一个参数值,记作simdt(a,b)。如果两个概念的数据类型相同,则simdt(a,b)=1。如果不同,则simdt(a,b)=0。

(3)objectproperty(对象类型属性)的相似度[5]:是类与类之间的关系,记做simobject(a,b)。和分别表示概念和的对象类型属性的个数。 的对象类型属性所对应的概念为,的对象类型属性所对应的概念为,则概念的对象属性的语义相似度为:

(4)本体概念的深度:是概念在本体树中的层数,记作depth(a)。

(5)调节因子:是为了满足系统的特定需要而设定的特定参数。由于词语相似度是一个主观性比较强的概念,所以必须使用调节因数来具体情况具体分析。它通过对本体树的广度与深度的控制来调节特定的语义的相似度。本文用k来表示调节因数。

综合得出语义相似度算法的公式:

式中sim(c1,c2)表示概念c1、c2的语义相似度,distance(c1,c2)表示概念c1、c2的语义距离,simdt(c1,c2)表示概念c1、c2的数据类型的相似度,simobject(c1,c2)表示概念c1、c2的对象类型的相似度,k表示调节因子,depth(c1)表示c1的的深度(即本体树中的层数),分别是数据类型属性和对象类型属性在属性相似度中的权值,,且。

3.3实验结果

根据本文得出的语义相似度算法,即上述公式计算出表1所示的本体树的语义相似度。

3.4 基于本体语义相似度的应用

begin;

input:查询表达式 q={w1,w 2,……,wn} and 语义相似度的临界值k;

result = null,i=0;

while(q[i]的语义相似度>=k){

result[i]=q[i]+相关概念集;

i++;

}

return result;

end;

4 结束语

人与机器之间的有语义的交流近年来成为了人们研究的焦点与瓶颈。本体由于其共享性和明确性以人与机器的语义交流的基础进入了人们的视野。本文通过建立本体树,利用其层次之间的关系来设计概念的语义相似度算法。同时将概念的数据类型与对象类型也考虑其中,这大大提高了概念的语义相似度算法的精度。但是由于本文只考虑了基于单个本体的相似度算法,不能满足多个领域本体间概念的相似度算法。在以后的研究中,会将此算法扩展到多个领域来设计,以便大幅度提高概念的语义相似度的精度,进而优化基于本体的信息检索及信息采集。

参考文献

[1]berners-lee t,hendler j,lassila o.the semantic web[j].scientific american, 2001,284(5):34-43.

[2]李鹏,陶兰.一个改进的本体语义相似度计算及其应用[j].计算机工程与设计,2007,28(1):226-228.

[3] 刘建,李素建.基于《知网》的词汇语义似度计算[j].中文计算机语言学, 2002,7(2):59-76.

[4] andreasen

推荐期刊
  • 数据
    刊号:11-5323/C
    级别:省级期刊
  • 大数据
    刊号:10-1321/G2
    级别:统计源期刊
  • 大数据时代
    刊号:52-1163/G2
    级别:省级期刊
  • 数据通信
    刊号:11-2841/TP
    级别:部级期刊