点击上方蓝字关注我们
高能同步辐射光源科学数据管理策略研究与应用胡皓1,2, 齐法制1,2, 孙晓康3, 罗齐1
1 中国科学院高能物理研究所,北京 100049
2 国家高能物理科学数据中心,北京 100049
3 中国科学技术大学,安徽 合肥 230026
摘要:针对高能同步辐射光源(HEPS)科学数据管理和开放共享面临的问题,论述了科学数据策略研究对同步辐射大科学装置这类公共实验平台的必要性和重要性。依据国内外光源类装置科学数据策略的研究进展,分析了我国同步辐射大科学装置数据策略研究的现状,重点阐述高能同步辐射光源数据策略研究包含的内容,总结策略研究中遇到的问题并提出相关思考。最后,系统介绍了数据策略研究取得的阶段性进展以及在高能同步辐射光源的应用情况,并对高能同步辐射光源未来的科学数据策略提出了展望。
关键词:科学数据 ; 数据策略 ; 数据管理 ; 开放与共享 ; 高能同步辐射光源
论文引用格式:
胡皓, 齐法制, 孙晓康, 等、高能同步辐射光源科学数据管理策略研究与应用[J]、大数据, 2022, 8(1): 5-14.
HU H, QI F Z, SUN X K, et al、HEPS scientific data management policy research and applications[J]、Big Data Research, 2022, 8(1): 5-14.
高能同步辐射光源(high energy photon source,HEPS)是国家“十三五”规划优先建设的国家重大科技基础设施。它是我国第一台高能量同步辐射光源,也是世界上亮度较高的第四代同步辐射光源之一,将服务于超高空间分辨、时间分辨、能量分辨的高通量同步辐射实验,为国家重大战略需求和前沿基础科学研究提供技术支撑平台。
高能同步辐射光源是面向多学科交叉前沿研究的同步辐射公共实验平台类装置,依托该装置开展的实验向高通量、多模态、超高频率、原位及动态加载的形式转变,以实现样品的跨尺度、多功能原位表征的目标。高能同步辐射光源每年产生PB级甚至数百PB级的海量科学数据,具有不可重复性、高维性、高度计算复杂性和高度不确定性等特征。这些数据属于公共实验类科学数据,数据构成基本一致,包括原始数据、元数据、处理数据与结果数据。科学数据是高能同步辐射光源装置的核心资产,更是国家的宝贵财富和战略资源,关系到国家的科技进步与创新能力,因此建立权责明晰且能力健全的科学数据管理规范与开放共享机制尤为重要。
随着科学数据的不断积累,基于大数据的科学发现已经成为继实验归纳、模型推演、仿真模拟之后的科学研究第四范式,并引起了相关国家和科技领域的高度重视。为了进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,我国出台了一系列与数据管理相关的政策和法规。2018年3月,国务院办公厅印发《科学数据管理办法》,该办法明确了中国科学数据管理的总体原则、主要职责、数据采集汇交与保存、共享利用、保密与安全等方面的内容,首次站在国家高度面向多领域科学数据提出以开放为主的指导原则,具有划时代意义。2019年2月,中国科学院印发了《中国科学院科学数据管理与开放共享办法(试行)》,该办法规定科学院属法人单位是科学数据管理与开放的责任主体,提出科学数据应按照分等级、可发现、可访问、可重用的原则,适时向院内外用户提供数据开放共享,为《科学数据管理办法》在中国科学院的落地提供了具体指导意见。
上述纲领性文件为我国建立科学数据的管理规范和开放共享机制提供了指导性意见,但是对于同步辐射公共实验平台类装置的科学数据管理,仍有许多需要细化和落实的地方:科学数据的所有权和使用权界定不清晰;科学数据管理与开放的责任主体及职责范围不明确;未对用户使用国家大装置资源的行为进行约束和要求等。这些问题严重阻碍了高能同步辐射光源在数据管理工作上的推进。
针对科学数据管理和开放共享中面临的具体问题,高能同步辐射光源亟须研究和建立数据管理策略及实施细节,明确科学数据的所有权和使用权;加强对用户知识产权的保护,规范科学数据使用者的行为;保证科学数据安全,并围绕科学数据的全生命周期,为科学数据的采集、长期保存、处理分析、开放共享等各个环节的工作提供政策依据。
1 同步辐射光源大科学装置数据策略 1.1 数据策略本文的科学数据策略指大科学装置产生的科学数据全生命周期管理过程的制度和规范,装置的科学数据管理必须遵从该数据策略的各项规定。科学数据策略需要对科学数据的所有权、管理和访问3个方面进行约束和说明。
● 科学数据的所有权:回答了“数据是谁的”这一问题,是数据权利保护的核心问题。数据所有权的界定能真正实现对数据权利的保护、对数据的有效利用,并激励数据开发、技术应用的研究。对于同步辐射光源类大科学装置,科学数据的来源比较复杂,科学数据可能由公共研究或非公共研究的实验产生,数据的种类包括原始数据、处理数据、结果数据、标定数据等,需要根据不同的数据来源分别界定科学数据的所有权。
● 科学数据管理:围绕科学数据全生命周期过程,明确科学数据的数据获取方式、数据格式和唯一永久标识、数据短期和长期存储策略、数据处理软件或数据读取软件提供方式等。
● 科学数据访问:为了遵循科学数据的FA I R原则,保证数据的可发现(findable)、可访问(accessible)、可互操作(interoperable)和可重用(reusable),同时保护用户的知识产权,需要针对不同的数据类型,从数据访问对象和数据保护期等角度对数据访问进行相关约束和规定。
1.2 国外研究情况目前国际上有多个光源类大科学装置制定了相应的科学数据管理策略,如欧洲同步辐射装置(ESRF)、瑞典MAX IV、瑞士保罗谢尔研究所(PSI)和欧洲X射线自由电子激光装置(European XFEL)。这些装置的科学数据策略均对科学数据的所有权、管理和使用进行了详细规定。例如,ESRF和PSI将提供不少于5年的长期存储,MAX IV将提供最多3个月的短期存储,各装置的长期存储期限可根据资金、存储硬件设施配置情况以及实验数据量调整。为了在保护用户知识产权的前提下对数据进行开放共享,国外光源类装置都提出了数据保护期的概念,自实验结束开始的一段时间内,只有实验的提案组拥有该数据的使用权,仅对实验组成员开放数据读取权限。大部分装置将数据保护期定为2~3年,并在数据保护期过后对系统注册用户提供免费的公开访问。
国际上多个先进的光源类大科学装置发布的数据策略已经得到多年应用和改进,为科学数据管理规范和数据开放共享提供了有效的政策指引。虽然国内外在国家法律和管理制度上存在巨大差异,但这些经验总结仍对制定国内同类大科学装置的数据策略有很高的参考价值。
1.3 国内研究现状国内目前运行的光源类大科学装置主要有北京同步辐射装置(BSRF)、合肥同步辐射装置(HLS)、上海光源(SSRF)、中国散裂中子源(CSNS)、X射线自由电子激光试验装置(SXFEL)和大连相干光源(DCLS),高能同步辐射光源(HEPS)、上海硬X射线自由电子激光装置(SHINE)和软X射线自由电子激光用户装置(SXFEL)等装置正在建设中。在过去一段时间内,国内光源类大科学装置在科学数据的管理和共享中缺乏相应的技术手段和驱动力,科学数据的协同处理和分析难度较大,更没有形成统一的科学数据标准及管理与开放共享的策略。当前,国内光源类大科学装置在数量和规模上都达到了国际水平,相关机构也逐渐意识到数据策略的重要性,逐步规划和建立专业的数据管理团队开展相关研究。但总体来说,国内光源类大科学装置的数据管理策略研究还处于起步阶段。
2 高能同步辐射光源数据策略 2.1 数据策略总体架构数据策略总体架构如图1所示,为了形成数据管理和开放共享的政策依据,数据策略围绕高能同步辐射光源科学数据全生命周期,制定从数据获取、数据存储、数据分析、数据发布到数据共享整个流程相应的规范和制度。科学数据管理内容包括数据架构管理、元数据管理、数据格式管理、数据服务、数据共享服务、数据标识管理、分析软件管理和数据安全管理。针对这些具体的数据管理内容,制定相应的存储策略、访问策略、数据质量、数据服务保证、数据权属、共享策略、汇交策略、数据引用策略等。存储策略指对不同类型数据采用不同存储介质进行长期或者短期的保存;访问策略主要针对不同时间段的用户数据访问进行权限限制,实现用户对实验数据的知识产权保护,同时保证开放共享时数据能被访问和充分利用;数据质量指对数据格式规范和元数据完整性、真实性的要求;数据服务保证指对提供持续不间断的数据服务和用户信息安全提出相应的要求;数据权属是对不同类型实验产生的实验数据归属权的界定;共享策略指在数据保护期内和数据保护期外数据可以共享的范围,包括实验组、提案组、所有用户等权限界定;汇交策略指所有实验数据向国家数据中心汇交的要求;数据引用策略指数据发布、数据发表、数据相关出版物对数据引用的规范要求。
图1 数据策略总体架构
在决策流程方面,数据管理团队提出数据策略发布和变更要求时,需要经过数据管理专家评审和用户委员会的同意,最后数据管理委员会成员一致通过后才能发布或更新版本。
2.2 数据策略内容基于根据数据策略总体架构,高能同步辐射光源数据策略根据不同的数据类型来组织数据策略内容,包含总则、术语定义、原始数据和元数据相关策略、处理数据与结果数据相关策略、科学数据的保证和责任、数据相关出版信息六部分内容。总则部分从整体上制定了数据的所有权、管理和使用的相关政策和规定,并从大科学装置角度和用户角度分别明确了各自的责任和义务;术语定义部分对数据和实验的专业术语进行解释和定义;原始数据和元数据相关策略、处理数据与结果数据相关策略两部分分别针对不同类型的科学数据,从数据所有权、数据管理和访问3个方面,明确了装置以及用户的权利和义务;科学数据的保证和责任明确了作为数据管理和开放共享的责任主体对准确、长期、安全地保管数据做出的保证;数据相关出版信息明确了对数据进行发布、发表、出版时应正确地对数据进行引用。
2.2.1 总则
● 本数据策略是大科学装置科学数据的所有权、管理和使用的相关政策和规定,任何与大科学装置科学数据相关的管理和操作必须遵循本数据策略。
● 接受此数据策略是用户获得实验机的前提条件。
● 遵守此数据策略并经过大科学装置授权的用户才能访问、利用、分发或共享科学数据。
● 如果用户出现故意违反此数据策略的行为,相关大科学装置有权拒绝用户对科学数据的访问,并有权拒绝该用户以后对该装置的任何实验机的申请。
● 大科学装置用户必须在装置的用户管理系统或其他被装置官方认可的系统上进行注册,大科学装置有义务保证用户信息的安全性。
● 根据科学数据汇交制度,公共实验产生的科学数据可以汇交到国家的相关科学数据中心。
2.2.2 术语定义
● 科学数据:所有从大科学装置产生的数据,包括但不限于由实验分析软件自动产生或由实验站科学家及用户模拟或分析产生的数据。
● 原始数据:所有从大科学装置直接获取的科学数据。
● 元数据:所有收集到的与科学数据相关的信息,包括但不限于与实验相关的信息,如实验用户、实验条件和环境等信息。
● 元数据目录:指元数据数据库,使用该数据库可以通过不同的检索方式查找和访问科学数据文件。
● 处理数据:所有由原始数据处理和加工得到的数据。
● 结果数据:由原始数据和元数据处理、加工以及分析得到的数据,属于处理数据的子集,不包括基于此结果发表的论文、专利等知识产权成果。
● 标样数据:也被称为标定数据,是处理数据中用来描述探测器校正因子的一个子类。
● 准直数据:是从专门的校准测量中获得的处理数据的一个子类,它提供了各种探测器的位置、角度及其他相关信息。
● 课题负责人:指用户管理系统中申请课题的负责人。
● 课题组:包括课题负责人和由课题负责人授权的所有能访问该实验原始数据和元数据的注册用户。
● 公共实验:政府预算资金资助的科学实验。
● 非公共实验:非政府预算资金资助的科学实验。
● 永久标识符:用于标识实验数据集的唯一永久符号。
● 长期存储:不少于一年的科学数据存储服务。
● 数据保护期:指实验结束后仅对课题组成员开放数据读取权限的期限,一般不超过两年。
● 开放访问:指数据保护期过后,对数据提供无限制的(但非匿名)、免费的公开访问。
2.2.3 原始数据和元数据相关策略
(1)原始数据和元数据的管理
● 所有原始数据和元数据都以预先明确定义的格式进行处理并保存,实验结束后提供不少于3个月的即时访问存储及长期存储。长期存储期限可根据资金、存储硬件设施配置情况以及实验数据量调整。
● 原始数据和元数据在其存储期间是只读的,大科学装置提供读取数据的方法。
● 大科学装置产生的每个实验数据集必须具有唯一的永久标识符,任何人发布可以开放读取的数据时都必须引用相应数据集的永久标识符。永久标识符建议采用中国科技资源(China science and technology resource,CSTR)标识。
(2)原始数据和元数据的访问
● 只有经过大科学装置授权后的注册用户才有数据访问权限。
● 可通过元数据目录搜索并访问原始数据和元数据。
● 公共实验产生的所有原始数据和相关元数据只能在数据保护期之后才能提供开放式访问,而在保护期内这些数据的访问和获取权限仅属于由课题负责人指定的课题组成员。
● 非公共实验获得的所有原始数据和相关元数据的所有权由非公共实验用户独家拥有,这些数据不包含在本数据策略的应用范围内。大科学装置不负责管理和保存非公共实验产生的所有数据,除非在实验开始前非公共实验用户与大科学装置相关管理机构另有约定。
● 任何希望延长数据保护期的课题负责人可以向大科学装置相关管理机构提交书面请求,说明申请延长期限的原因,该机构讨论决定是否接受申请。
● 课题负责人有责任确保实验过程中输入的实验相关信息的正确性和完整性,包括但不限于实验课题编号和样品描述信息。
● 大科学装置工作人员(如实验站科学家)因工作需要可以访问相关原始数据或元数据。大科学装置承诺在数据保护期内保证数据的安全性。
● 元数据目录将科学数据与实验课题相关联。除非获得课题负责人的特殊授权,否则只有课题组和相应的大科学装置工作人员具有对实验课题信息的访问权限。
● 在数据保护期内,课题负责人可以将其数据相关权利和责任全部转交给经过大科学装置授权的其他注册用户。此转让必须以可追溯的形式记录。
2.2.4 处理数据与结果数据相关策略
(1)处理数据与结果数据的管理
● 除非本科学数据策略另有说明,否则大科学装置不会长期保存实验中分析步骤的处理数据及其相关元数据。临时存储空间和临时存储时间将根据存储能力确定并灵活调整。
● 所有标样数据和准直数据以及相关元数据将会被长期保存。
● 大科学装置可提供一定期限内的结果数据以及相关元数据的保存。
(2)结果数据的访问
● 标样数据和准直数据及相关元数据将提供开放式访问,不受数据保护期限制。
● 对于由原始数据和元数据分析得出的结果数据,仅课题组成员具有访问权限。
2.2.5 科学数据的保证和责任
● 大科学装置将采取合理的措施,对数据进行准确、长期的保存和管理,以及提供不间断的数据访问服务。相关装置会在最大程度上保证数据的完整性和安全性。
● 若由不可抗拒或不可预见的因素导致科学数据丢失、不完整、不可用或数据分析软件不可用,大科学装置将不对此承担任何责任。
2.2.6 数据相关出版信息
任何基于大科学装置数据集的发布、发表、出版物都应该引用该数据集的永久标识符。
3 数据策略研究问题探讨与思考高能同步辐射光源按照大科学装置的实际情况和需求进行数据策略的编制,在符合国家数据管理法律法规的前提下,同时参考了部分国外同步辐射光源设施的数据策略的内容。在数据策略研究过程中,大科学装置组织数据管理专家、信息科学专家和光源线站科学家对策略条款进行多次充分讨论,总结出存在的问题和研究过程中的一些思考,具体如下。
(1)数据所有权
高能同步辐射光源属于公共实验平台类大装置,实验数据的所有权需要从实验研究类型、数据来源和分类方面进行分析。对于政府预算资金资助的公共实验,科研用户使用自己的创新研究方法和样品到装置做实验,得到实验原始数据,有些数据可以直接用于科学研究,有些数据需要经过装置公共平台提供计算资源进行处理后才能供用户使用,这两类数据的所有权应该由装置和用户共同拥有。对于非公共实验,原始数据和元数据的所有权由实验用户独家拥有。装置产生的实验数据分为原始数据和元数据、处理数据、结果数据、标样数据、准直数据等。原始数据和元数据具有不可重复的特性,所有权可以依据实验研究类型区分;处理数据是由原始数据通过软件加工处理得到的数据,数据可由原始数据和软件重复生成,因此装置不提供对处理数据的长期保存;结果数据是处理数据的子集,涉及后续产生的知识产权问题,结果数据的所有权归执行数据分析的人员所有;标样数据和准直数据作为装置探测器校准和校正的公共数据,所有权归装置所有,但会对所有用户提供开放访问权限。
(2)模拟数据
策略中对原始数据、处理数据、已校准数据、标样数据、准直数据、结果数据都有详细的定义,同时对各类数据的存储时间和访问权限做了明确说明,但是缺少模拟数据。模拟数据是不由真实实验产生,由模拟算法产生,可以反映样品和仪器特征的数据,在线站设计、机器研究和用户数据分析等方面体现了重要的价值。由于很多数据分析依赖于模拟数据,线站科学家认为模拟数据有必要被长期保存。但考虑到用户的模拟数据是由用户自行开发的软件生成的数据,属于用户个人数据,并且能由软件重新生成,其是否属于装置数据管理的范畴还需要讨论。
暂时解决办法:数据管理系统保留对模拟数据进行保存和记录的功能,但在数据策略中暂不明确给出定义、存储和访问策略。
(3)数据管理委员会
在策略的执行过程中,需要设立数据管理委员会,其主要职能是对数据管理活动中的关键过程进行评审和批准,如非公共实验产生的数据策略的特殊约定、数据保护期延长申请等。实际上,高能同步辐射光源在工程规划和建设中并未设立这一组织。数据管理委员会的成员组织方式、职能范围、运行机制目前还未明确,需要进一步细致讨论。
(4)数据策略法律效力定位
制定本数据策略的初衷是希望其成为高能同步辐射光源科学数据管理规范和开放共享的政策依据,同时推动制定国内光源类大科学装置数据策略,形成行业标准。但与普通的管理规定不同的是,由于高能同步辐射光源是面向用户服务的实验平台,数据策略内容在行业标准的框架约束下,在操作层面上需要包含用户服务协议部分的内容。数据策略对科学大装置和用户双方在数据管理和数据使用方面都具有规范性和约束力。
(5)装置免责说明
对于装置免责说明部分的内容,各领域专家站在不同角度提出了问题和担忧。高能同步辐射光源是科学数据管理和开放共享的责任主体,但也可能存在由恶意人为破坏、不可抗力或不可预见因素导致的科学数据丢失、不完整、不可用等风险。信息科学专家认为作为数据保存和数据管理(数据保管)及数据服务的提供者,数据策略中应该体现对不可预测的风险进行免责说明的内容。但是线站科学家认为装置免责说明会让用户对装置在数据保管的可靠性和安全性方面产生不信任,难以吸引优质用户到装置做实验。数据管理专家则认为装置免责说明必不可少,但可以从文字上再仔细斟酌,打消用户的疑虑,确保为用户提供准确、安全的数据保存和管理,以及不间断的数据访问服务。
4 数据策略在高能同步辐射光源的应用情况为了规范和加强高能同步辐射光源的科学数据管理,保障科学数据安全,提高科学数据开放共享水平,依据国家《科学数据管理办法》和《中国科学院科学数据管理与开放共享办法(试行)》,结合公共实验类大科学装置的领域特点,笔者在2020年9月起草了《高能同步辐射光源数据策略》草案,形成了高能同步辐射光源的科学数据的所有权、管理、使用和开放共享的相关政策和规定。此策略草案经过光源线站科学家和数据管理专家的多轮讨论,同时邀请合肥同步辐射装置、上海硬X射线自由电子激光装置的相关专家参与策略意见咨询会议,听取各方意见和建议,草案大部分内容已达成共识,形成初步版本。此数据策略计划继续通过用户委员会征求用户意见,并在高能同步辐射光源正式提供用户服务之前进行官方发布。
由于高能同步辐射光源目前处于建设阶段,数据策略还无法正式应用于光源。但是为了验证科学数据管理的设计和技术路线的合理性,笔者已经在北京同步辐射装置的线站搭建了测试床。数据的存储和访问策略已通过相应的IT手段部分应用于测试床:为原始数据提供3个月的磁盘存储,之后数据会自动归档到磁带进行长期保存;所有的原始数据和元数据自动汇交到国家高能物理科学数据中心;在数据保护期(暂定两年)内,用户实验组独占对数据的使用权,保护期过后,数据将对所有系统用户开放和共享;采用CSTR为所有实验数据分配唯一永久标识符,方便用户进行实验数据检索、访问和引用。
高能同步辐射光源的科学数据管理策略研究目前已取得阶段性进展,但是还有很多细节需要优化和完善。根据数据策略在高能同步辐射光源的应用情况,可以探讨数据管理规范和开放共享具体措施的合理性,同时为同一类型的同步辐射公共实验大科学装置数据策略的制定积累经验,对提高科学数据效能和科研产出效率具有重要意义。
作者简介
胡皓(1981-),女,中国科学院高能物理研究所工程师,高能同步辐射光源科学数据管理系统负责人,主要研究方向为科学数据策略、科学数据管理等。
齐法制(1978-),男,博士,中国科学院高能物理研究所高级工程师、计算中心主任,主要研究方向为高性能计算技术。
孙晓康(1994-),男,博士,中国科学技术大学博士后,主要研究方向为科学数据策略。
罗齐(1992-),男,中国科学院高能物理研究所助理工程师,主要研究方向为数据管理。
联系我们:
Tel:010-81055448
010-81055490
010-81055534
E-mail:bdr@bjxintong.com.cn
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
转载、合作:010-81055537
大数据期刊
《大数据(Big Data Research,BDR)》双月刊是由中华人民共和国工业和信息化部主管,人民邮电出版社主办,中国计算机学会大数据专家委员会学术指导,北京信通传媒有限责任公司出版的期刊,已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊,并被评为2018年、2019年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。
关注《大数据》期刊微信公众号,获取更多内容