线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

数据管理 FAIR 原则实施注意问题分析

时间:2022-11-07 15:43:46
摘要:FAIR原则是科学数据管理领域的重要准则,对我国科学数据管理政策制定及平台建设具有借鉴参考意义。本文从可发现、可获取、可互操作、可重用四个基本原则出发,分析科学数据管理活动中贯彻实施各原则的一些注意问题。结果表明FAIR原则实施要注意元数据生产、数据安全监管、互操作环境建设、数据描述控制这些重点问题;注意标识符、数据管理核心任务、数据表示标准、数据对象描述\重构这些关键点;注意到软件编程类数据的重
关键词: 数据管理 fair 原则实施

数据管理 FAIR 原则实施注意问题分析

当前,跨学科、跨领域、跨机构的数据密集型科研模式及开放科学环境对科学数据的管理形成了新挑战。科研需要合作、共享、交流,涉及不同科研人员、团体、机构乃至国家间的关系与利益[1-2]。为使开放环境下被保存的科学数据对研究活动形成有效支持,实现数据本身价值,同时减少不必要的重复投入,对数据的管理就需确立某些普遍遵循的标准准则,以实现跨库、跨系统、跨平台间的数据互访、共享、利用。2014年1月“FAIR原则”被首次提出,2019年欧盟《开放数据与公共部门信息再利用指令》正式将FAIR原则明确为科学数据管理的一项重要原则,成为欧盟制定数据战略、政策、法规的重要指导原则之一,并在全球许多国家开放科学数据领域被关注、运用[3]。“FAIR”指为确保科学数据能被有效利用,数据对象应具备可发现(Findable)、可获取(Accessible)、可互操作(Interoperable)、可重复使用(Re-usable)四个基本原则属性,每个基本原则下又有若干具体指导原则(表1)[4]。本文对科学数据管理实施FAIR原则的注意事项进行解析,以期对我国相关研究与实践有所助益。

1“可发现原则”实施注意问题

数据可发现,是获取、互操作、重用的前提[5]。科学数据不但包括常规出版物、文献数据库中的数据,在各类机构知识库、存储库等数据集中也包含大量科学数据[6]。出版物和文献数据库可看作是科学数据的常规出版渠道,而这些数据集则可视为非常规出版渠道。对常规出版渠道中的数据,通过元数据和目录词表的标引,数据可发现容易实现。对非常规出版渠道,数据发现程序需要抓取、检索数据对象的全文以及附属链接,才能保证数据被发现。发现程序的检索策略通常是以检索输入与数据集中实际值的命中匹配为基础的,也就是说对元数据和规范词表标引的需求非常低。许多科学数据因为技术或利益原因也可能根本不开放,或仅对某些搜索引擎的爬取程序可读,这更对数据的可发现形成了严重障碍[7]。

1.1建立科学数据标识符赋值机制

可发现原则指出了对数据可发现的一个关键共识,即给数据对象赋予一个唯一且永久性的标识符(PID)。标识符能够解决数据的身份问题,同时也意味着标识符的建立规则应是全局层面的统一规划,避免号码混乱。关于标识符的研究与实践很多,许多数据平台也有自己的标识符赋值规则,其中较有代表性的是DataCite。DataCite可为会员机构的科学数据及科研成果(包括元数据)提供永久唯一的数据对象标识符(DOI),并登记提交的元数据,是一个跨国多学科机构知识库发现平台[8]。其DOI的唯一性保证了数据被有效发现,被登记提交的元数据可以被任何人收割,而且DataCite的元数据模式是可扩展的,能够被其他标识系统服务兼容,在提升数据可发现性的同时也保证了互操作性。其DataCitationIndex服务还提供了部分高质量数据集与学术论文之间的链接(通常指向WebofScience),进一步增强了对数据获取、复制、重用性的保障[9]。除DOI外,目前较为主流的标识符还有档案资源键(ARK),持久统一资源定位符(PURL)等[10-11]。从这些标识系统的经验看,对科学数据管理首先要建立一套标准的报道数据的有效工作机制,为了避免各数据生产者或管理者单独工作带来的不利影响,数据对象标识符最好应由数据生产者和数据用户之外的第三方机构生成、分配、管理,保障标识符赋值规则的统一和持久。鉴于DataCite的服务已具备相当影响力,建立科学数据标识符赋值机制可将其作为重要参考对象。

1.2建立科学数据元数据生产机制

元数据是可发现原则另一关注点。数据发现或数据检索,主要取决于较高质量、开放访问的元数据和目录。丰富元数据的生产工作伴随科学数据整个生命周期过程,元数据生产工作量很大。由于元数据生产通常会牵涉科研利益、政策制度、标准规范等各种问题,往往导致元数据的生产责任主体不易明确,同时元数据的有效生成又直接影响数据的可发现属性,因此在科学数据管理的政策制度、操作规程等指示性文件中就应明确这些内容,规定元数据生产责任,协调好各环节关系。人工生产丰富元数据需要巨大的人力投入,元数据自动生成工具能够降低人力消耗。W3C通过其“Web数据最好实践”[12]、“RDF数据画像”[13]等项目组的研究及schema.org词表,定义了一套结构化网上数据的标准模式及描述数据集必要的元数据元素的工具。生物医学领域的项目DataMed,构建了一个支持FAIR原则的生物医学数据搜索引擎,能够实现跨机构库、跨数据源的数据发现,并形成了一套带有详细注释schema.org词表的元数据规范(DataTagSuite)及一些元数据工具[14]。W3C的项目SimpleKnowledgeOrganizationSystem也生成了一个元数据工具OpenMetadataRegistry,能够为受控词表开发者与使用者提供服务[15]。RDA项目MetadataStandardsDirectory,也是关于元数据创建与规范标准方面的项目[16]。目前,已出现的元数据模式、本体、受控词表等大多是针对特定领域或学科,通用性的成果还较少。元数据工具是科学数据管理的重要助手,通过提高元数据的生产效率和质量会对科学数据的发现、利用形成重大影响。此外,这方面也会牵涉元数据工具的采用标准、效果评价、质量控制及职责分配等问题。

2“可获取原则”实施注意问题

可获取原则内容关注到存取数据(或元数据)的标准化通信服务协议及访问授权问题。数据可用是通过将数据存储到数字知识库来实现的[17],数据在某个知识存储库保存时,存储库的服务约定通常已包括了关于数据的存取通信、访问授权等协议问题。开放为常态、不开放为例外[18],多数存储库的数据是完全开放或有条件开放,差别在于访问授权形式和程度,大多保证被存入的数据是可获取的(完全不开放的存储库讨论其数据FAIR问题意义不大)。而数据的通信通常是依靠超文本传输协议HTTP、文件传输协议FTP、TCP/IP协议等这些定义明确、开放且使用普遍的协议[19]。因此,数据可获取实际主要取决于数据存储入库前与后的那些核心管理活动,这些核心管理活动以能实现用户最终获取和利用数据为目的,包括入库前的数据选择、表达描述、长期保存及入库后的数据访问安全监管等。这些核心管理任务决定了可获取原则在数据管理实践中的落实。

2.1明确数据管理核心任务

当前,单一的数据中心及服务已不足以有效支撑科研活动,各种资源库与服务、丰富的高质量元数据成为科研基础设施的重要内容。为了促进科学数据的发现、获取、利用,需要更加有效的管理这些规模化的聚合数据。有效管理首先需要解决两个问题:明确管理责任主体;明确核心工作任务内容。在科学数据生命周期的各个阶段,由于涉及的数据生产管理主体不同,特别是跨国、跨领域项目还涉及不同法律和管理制度的影响,很难确定管理这些不同类型数据的责任主体,项目各参与方的责任与角色也不好分配。有学者认为,为了确保数据及其溯源信息的成功抓取,应由科研资助方负责建设整套的数据基础设施,包括云中的计算设施、软件、存储库,以及能够根据科研进度把工作性数据文件提炼为持久性数据文件的识别标记数据文件的长效机制。在科研活动的各个环节,不同领域的科研人员持续生产大量不同类型数据,选择、提炼、保存这些数据的工作任务艰巨。保存什么数据,在哪保存,怎样保存,每环节要处理什么问题,何时处理,项目完成后应该长期保存哪些内容,哪些可开放存取等,这些都是数据管理要解决的问题。根据科研生命周期过程,可以把科学数据管理核心任务内容归纳如下:明确生成什么数据(含元数据),保存什么时间什么格式的什么内容对象,保存的方式、地址,何时考虑数据对象的剔除或长期保存问题,决定以上这些事项各应采用什么标准。围绕核心任务,以数据可获取为目标优化处理各个环节,推动数据管理实施FAIR原则的效果。此外,优化各核心工作的同时,应注意平衡具体领域实践需求与通用服务规则之间的关系。

2.2应对数据安全监管挑战

随着黑客攻击、网络诈骗等网络犯罪活动以及各种涉网安全事件不断出现,互联网安全工作的重要性被提上新高度。新数据源不断出现,数据量急剧增长,新技术、新理念催生的各类数据管理基础设施的复杂性也不断变化,这都是对数据安全管理工作的巨大挑战。网络与科研活动的关系密不可分,科研活动参与者迫切希望降低网络安全问题带给科研活动的消极影响。已经进入和将要进入网络的科学数据的存储安全、访问安全成为科研人员必须面对的问题。数据存储设施是否有足够的冗余以供未来的发展,对未经授权的数据存取操作、破坏甚至犯罪活动是否有预防措施等问题都将直接影响数据的获取、利用。采取相对严格的数据安全监管、限制措施可以达到安全防范效果,但会对数据的获取、利用造成不利影响。落实可获取原则的数据管理作应注意协调好与数据安全监管工作的关系,避免出现可获取原则陈述中的“通信协议”、“身份验证”、“授权”允许数据存取,但安全监控机制不允许,最终妨碍数据可获取的情况。

3“可互操作原则”实施注意问题

数据通常要保存在某个数据仓储中。由于科学数据绝大多具有唯一性且数据结构、格式差异较大,保存不同源数据的数据仓储间很难进行合并、融合。实现不同系统间的数据互操作,首先要解决异质数据的表示统一性问题。要形成多学科领域数据结构、格式统一的数据表示形式难度很大,这也牵涉到数据的互操作环境问题。

3.1制定数据表示标准

统一的数据表示标准是数据互操作的前提,包括表示语言、本体、词表等。许多组织不同程度开展有数据标准的研制工作,并形成了一个普遍共识,即该标准应该开放可用并且是集体制定的。但是应该采用哪些标准,选择标准的条件是什么,标准的构成是什么等方面还没有统一。数据表示标准的制定主体间缺少协调沟通会导致工作重复与冲突。在制定标准的适用范围问题上,一般会有两种选择。一种是直接制定宽泛性的标准以适应跨系统、跨领域数据集间的整合管理需求。另一种会考虑到不同学科、领域间数据特点差异较大的现实,对不同领域数据建立特定模式的标准,以求标准制定工作更加务实,更具操作性,在实践中前进。显然,如果能够形成一个协调统一的标准,既满足各专业群体的需求,又支持不同领域数据的聚集管理将是最好的结果。为了达到一定的协调程度,理论上在技术层面应是可行的。

3.2构建数据互操作环境

互操作意味着合作,跨领域、跨学科的合作势必涉及各科研利益相关者。各利益相关者的兴趣、动机不同,需要搭建有效的管理框架、资助框架进行协调。制定互操作标准的工作,更多是文化、社会、组织机构间的协调问题,然后才是技术问题。也就是说实现数据互操作,首先是有利于实施互操作的文化、社会、机构等环境的构建问题。在欧洲开放科学云(EOSC)一些高级专家组的研究规划和报告中,对FAIR数据相关研究与工作的部署和讨论[20][21]与互操作环境的构建紧密相关。特别是FAIRActionPlan[22]详细定义了FAIR数据对象和FAIR生态系统等概念,并为实现数据FAIR化规划了27个推荐步骤。15个为优先步骤,其余12个为优先步骤的补充或细化延伸动作。每个步骤包含一套明确的行动内容,并与其他步骤的行动内容相关联。这些步骤可作为构建互操作环境的行动指南,并且是面向FAIR生态系统层面。技术差异、独立的资助管理体系、不同的规章制度导致基础设施的碎片化,非常不利于互操作全局环境的构建。满足个别群体需求的特定领域的基础设施环境,一般较难吸引其他领域的互操作合作。另一方面,由于不同数据源会有相同主题的数据,各数据源采用的不同数据标准及定义不充分的本体,也将阻碍不同源数据的互操作。总之,特定领域需求与普遍基础服务环境之间的矛盾是搭建互操作环境要面对的问题。

4“可重用原则”实施注意问题

可重用原则的内容关注数据对象的描述问题。强调通过丰富的数据描述,采用某种标准准确描述(元)数据的多重关联属性以促进数据可重用[16]。从四条具体指导原则的陈述来看,贯彻可重用原则将涉及数据对象描述或对已保存数据的描述重构的责任分配、数据描述的质量控制及标准等问题。

4.1明确数据描述责任

科研产生的原始科学数据需要根据某种标准对数据对象进行描述,形成标准格式的归档数据,才能被其他科研项目、活动重复使用。特别是跨学科、跨主题的数据重用,数据对象描述/重构的重要性更为明显。数据对象描述,或是对已保存数据进行数据对象格式重构,首要工作是明确责任主体。目前,科学数据管理领域对该问题有一个普遍性共识——由创建数据的科研人员承担这项工作是不合理的。照此,参与数据再利用过程的处于数据创建者与数据用户之间的第三方是最后选择,因为让数据潜在用户承担该工作更不现实。该第三方可能是专门从事科学数据管理的专家、团队,或者是数据的共享、发布者[17]。我国2018年发布的《科学数据管理办法》第九条、第十一条、第十七条规定,“科研院所、高等院校和企业等法人单位及科学数据生产者”负责“科学数据采集生产和加工整理便于利用”和“科学数据人才队伍建设”[18]。《办法》对数据描述归档等责任归属进行了明确,这里的“法人单位及科学数据生产者”不等同于“数据创建者”,我们可以把后者理解为前者的部分成员。落实到具体数据管理项目,对数据描述责任还需要进一步约定——具体责任者是指“法人单位或科学数据生产者”中同时承担数据共享发布责任的人员群体,或是专职的数据描述、数据重构专家团队。无论如何规定,都应是基于避免出现责任真空影响数据描述质量和利用的前提。贯彻可重用原则应注意该问题。另外,因为数据描述,特别是已保存数据的重构可能会牵涉到“数据资源开发”等多方面的经济、名誉利益,因此在数据管理政策或数据访问服务规定中应协调好关系。

4.2加强数据描述与质量控制

数据的价值主要取决于数据本身的质量。数据的质量主要取决于数据及其关联代码是否符合被创建或收集时的预期目的,对数据的描述控制是达到预期目的的必然要求。数据采集、管理的目的是为了重用,数据价值是数据重用的充分条件,数据质量是数据重用的必要条件。因此,对数据的描述控制是可重用原则落实的重要内容。有效管理数据的溯源信息是数据描述控制的主要手段。溯源信息极大影响数据的可重用性。溯源信息,指那些记录了数据在生成、保存、修改、编辑时的时间、地点、方法、原因等要素的综合性信息[23]。详细的溯源信息有助于数据用户更加理解数据、验证科研过程。采集溯源信息,原则上应贯穿科研过程始终,尽可能让溯源信息成为科研成果的组成部分。从已有经验看,在科研过程中采用“研究工作笔记本”的形式有助于收集溯源信息,同时也能促进科研方法、过程及数据的共享。关于数据的质量评价、质量保证则涉及多层次的问题,如评估对象的选择、评估指标的质量、数据的后续处理控制等。这是项复杂的工作,科研资助方、科研组织部门、期刊、出版商、资源库及数据中心在其中可能都存在利益关系并扮演一定的角色。但是科学数据的创建者和使用者由于几乎不参与在呈现给用户前的最终样式的科学数据的重构工作,因此往往不清楚已经进行了哪些数据操作,还要做什么,以及由谁做。同时,质量评估专家对不明确的数据审查工作又常常不感兴趣,不愿参与,更加剧了数据质量评价工作的难度。因此,有必要形成一套评价专家能够有效审查数据,出版者能够通过规范算法进行数据自动验证的机制。数据描述控制机制也是实施可重用原则支撑设施的重要内容。近年来国际上出现了一些数据描述控制或数据认证的标准、程序,并且也已经被一些机构知识库采用,如可信赖的资源库审核和认证(TRAC)标准[24]、CoreTrustSeal认证(原DSA与WDS,DSA重点在人文和社会科学领域的数字存储库,ICSU的WDS重点在地球和空间科学)[25-26]、德国数字长期存储与可访问专家网(NESTOR)签章[27]。此外,科研流程许多方面都需要大量人工干预,特别是在元数据生成和其他关于数据的记录信息方面。这些如果全部依靠人工,非常不利于科学数据的管理。使用自动化工具可以有效降低人工干预的成本,也有助于科学数据管理好实践、好经验的推广。自动化工具在某些方面比人工更具稳定性、精确性、工作持久性,一定程度也能保证数据对象的质量。

4.3重视软件编程类数据的重用

软件和编程程序伴随科学数据生命周期全过程,数据用户想要有效的重复利用数据或验证基于这些数据获得的研究成果,就必须要使用与产生这些数据相关的软件和编程。作为数据重用的重要保障,虽然科研软件与科学数据之间的关系可能比数据本身的质量都重要,但FAIR原则好像并不适用于软件或编程这类数据对象,特别在互操作、重用方面。软件问题在FAIR原则中似乎完全没有涉及。一些项目已经注意到该问题,如DataCite提倡在分配DOIs时包含软件技术信息[8],FORCE11的“软件引用原则”[28]也响应了该问题。软件管理计划是科学数据管理重要内容。制定软件管理计划,能够促进科研人员审视其软件、编程的组织方式、出版方式,进而提升科研软件、编程程序的重用效果。数据管理政策或服务规定对科学数据的开放共享有重要的影响,如果将软件管理计划纳入数据管理政策或数据服务规定使其制度化,有助于提升科研人员对软件与编程问题的重视。此外,软件、编程程序在其运用项目结束后,面对数据用户的重用时可能要被作为一类数据对象进行重构操作,以确保软件程序和科学数据的可重用。重构方法通常有模拟环境仿真与软件格式迁移[29]。这两种重构方法都要求操作者具备相当程度的软件编程知识,才有能力按照可重用原则要求,对作为数据对象的软件数据“以多种准确且相关的属性进行描述”(R1子原则)。显然,这里又涉及责任归属问题。这些编程专家似乎应是专业领域内的科研人员,但是专业科研人员通常对编程工作的重要性认识不够,且让他们从事不熟悉的编程工作将无法保障其专业发展。因此,对软件编程类数据落实可重用原则,要解决软件编程专家问题。

5结语

FAIR原则已成为科学数据管理的国际性准则,分析该原则在科学数据管理活动中贯彻实施的注意问题,有助于我国科学数据管理工作发展。当前,科学数据的识别发现机制普遍不完善,在个别主题领域仅能通过特定专家才能有效运作。元数据标准不一,质量参差不齐,特别是处于开放网络空间的科学数据还没能形成普遍性的有效检索机制。使用元数据工具可以降低人工成本,提升元数据生成效率,但目前通用性的元数据工具少且不成熟。在数据管理工作流程许多方面都涉及人工干预,开发普遍性的工具,提升工作流程自动化程度,能减少人工操作带来的不利影响。除个别领域外,目前对科研过程不同阶段的科学数据的筛选、存储、长期保存、访问等操作形式不一,对存储对象选择、存储地点、存储时间节点、存储方式等没有形成标准。科研人员对科研记录管理的核心要求普遍认识不够。安全问题上,安全防范工作的紧迫形势与科学数据的开放访问、共享利用理念会形成冲突。技术、资助体系、政策制度等因素的差异,使系统间互操作的协调工作变得复杂。互操作要面对不同数据结构和格式的处理问题,要解决不同标准间的重叠和矛盾问题,要处理系统与接口程序间的互操作性问题。特别是在综合性数据系统与特定领域数据系统间,问题变得更复杂。数据可重用要求对数据进行标准化描述或重构,并且要明确定义保证数据符合基本质量标准的责任,以便追溯数据的重构历史。确定数据重构工作的责任主体则需要考虑各方利益。

作者:张红亮 单位:河南护理职业学院