【概述】
中国材料与试验团体(Chinese Standards for Testing and Materials) (简称 CSTM)标准委员会在2019年8月13日发布了团体标准T/CSTM 00120-2019《材料基因工程数据通则》,并于2019年11月13日正式实施。本文是针对标准内容进行解读。
【标准制定背景】
目前中国面临卡脖子的许多问题,实质是材料问题。十四五期间国家围绕材料开发启动多个材料项目研究,通过材料研发的突破改变这一被动局面。
材料基因工程是材料科学的新型研发理念,通过从传统的“试错法”向以 “数据+人工智能”为标志的数据驱动模式的转变,实现新材料及工艺的理性设计,使成分-组织-工艺-性能间关联规律的材料研发速度更快、效率更高、成本更少。
从国内材料行业来看,作为材料研发的新模式,材料基因工程研究和应用处于萌芽阶段,有少量高新公司提供材料基因工程技术和数据服务,但是相关标准为空白。从国际水准看,虽然美国等西方国家最早提出了材料基因这一概念和研究目标,但是材料基因工程标准建设尚未展开,相关标准均没有,尤其是对于数据的认识和开发都没有标准,所以CSTM率先在标准界提出了针对材料基因工程数据的通则标准。
【目的和意义】
本通则标准应对材料科学在数据驱动模式下对数据的需求,根据数据的特性分类,将材料数据分为样品信息、源数据和衍生数据三类,每一条数据根据元数据要求记录并允许赋予唯一的标识符。
1.材料数据是材料基因工程的核心,充分利用数据代表了材料基因工程的未来发展方向。
材料研究活动围绕数据产生与数据处理展开实现数据驱动材料研发的目标。
2.材料数据事关材料行业健康发展甚至国家安全。材料数据产生、收集、整理、保存、安全、产权需要长期积累,谁掌握了越多的数据,就有可能在数据再利用基础上实现材料研发的突破。
3.材料基因工程数据库是实施数据驱动材料科学的基础条件之一。数据库为材料基因工程提供数据服务,结合人工智能实现数据挖掘。
4.通则标准有助于推动材料基因工程健康、快速发展。开展材料研究的科研单位众多,随着材料基因工程在材料研发过程中广泛应用,各种数据生产手段和方法出现,将大量生产材料的数据。这些获得的材料数据生产途径多样、种类繁多、形式各异、来源分散、产权复杂、标准不一。为了持续有效管控材料数据产生,确保数据汇交共享,保证数据质量和再利用,必须对材料数据建立规范。
【标准介绍】
本标准属于通用规范,适用并不限于材料基因工程领域,对于材料数据标准都具有指导规范意义。核心内容包括数据分类、数据定义、数据必备要素。从数据产生来源和数据处理过程,将数据分为样品信息、源数据(未经处理的数据)与衍生数据(经分析处理得到的数据)三类,以操作(样品制备/表征/计算/数据处理)为条目单位,对每次操作分别赋予独立科技资源标识符。材料数据产生和应用必须遵守以下原则。
1.满足FAIR原则,FAIR来自于四个英文单词(Findable, Accessible, Interoperable, Reusable,可发现、可获取、可互操作、可再利用),它决定了数据资源的价值。其中“可发现”指数据及其元数据被赋予全球性唯一并持久的标识,数据被丰富的元数据所描述并在可检索的源中登记或建立索引,易于被第三方(人员与机器)方便地找到;“可获取”指数据及其元数据可使用标准通讯协议通过标识查询并获取;“可互操作”指数据及其元数据的表达使用正式、可获得、共享和广泛使用的语言;“可再利用”指数据及其元数据由多种准确并相关的特征所描述,与细致的出处信息相关联并符合相关领域的标准,从而被不同用户(人员与机器)方便地使用。
2.赋予每条数据唯一的科技资源标识符。这个唯一性指的是每条数据具有的标识符是独立的、唯一的。一条数据可以允许有多种数据标识符定义,但是这些数据标识符都是唯一的,不能再用于其他数据,确保实现多途径发现数据和挖掘数据。
3.材料数据在生产、采集过程中“应采尽采,宁多勿缺”原则,不漏掉每一个动作产生的数据,保证数据完整性和系统性,保持内在逻辑关系。
4.材料数据在保存和利用过程中避免断流,提高可再利用性。
数据通则颠覆了人们对材料数据的认识,针对材料多属性和数据关联多维度等特征,寻找材料数据的共性特点,规范数据模板和元数据,为多目标、多层次的材料数据生产、采集、汇交、存储、检索、交互、挖掘、计算、安全、质量、共享、知识产权等方面的技术标准建设提供了开创性工作和指导性意见。
【标准特点】
首次在国际上发布针对材料基因工程的标准。尽管2011年美国最早提出了材料基因组计划MGI以来,国际上尚未提出任何符合材料基因工程需要的标准。针对材料基因工程这一材料研发新模式的核心-数据。通过计算、高通量实验、高通量表征、数据工厂等途径产生大量数据,数量巨大的数据为人工智能的应用提供了基础。
考虑到材料种类众多、性质各异,相应的材料数据种类繁多且格式不一,通则标准彻底打破材料属性对数据限制,根据数据特点分为三类数据:样品信息数据、源数据、衍生数据,最大范围覆盖数据类型。数据标准的组合认识、多维理念、源数据分类、衍生分级等手段是国内外首次提出。
为了尽可能收录足够元数据与原始数据,本通则兼顾了材料数据专用性与通用性。单个数据条目以操作为单位,拥有独立的科技资源标识,独立存在,实现碎片化和模块化,保证专用性,为数据进一步再优化、再组合、再挖掘、再利用提供可能。在使用中,每次分析使用的数据或数据集通过规范化的标准词汇表进行检索,保证通用性。繁琐的数据录入可以通过高通量制备、表征、计算在操作过程中由计算机自动生成,有助于收集与批量处理数据。
【标准应用】
通则标准发布以来,技术性标准依据通则标准得到了全面发展,指导材料基因工程健康发展。基于数据通则标准,已经起草了数十项材料制备、材料表征、材料计算的数据存储共享标准和模板,为国家材料数据库建设提供保障。
通则标准在材料基因工程得到应用。基于通则标准设计和建设国家新材料数据库平台和云南省贵金属材料数据库,上海微系统所和南工大分别为芯片材料和陶瓷膜材料设计了数据模板。为国家重点研发计划的数据汇交政策提供了基于数据的FAIR原则咨询报告。
【标准制定单位构成】
标准的制定过程充分体现了广泛性,最大程度尽可能地邀请来自高校、研究所、应用单位的专家参与标准制定,共有50余家代表性单位参与了这一项目,多次召开研讨会进行充分讨论,听取了各方意见。
上海交通大学、四川大学、北京科技大学、中国科学院上海硅酸盐研究所、南方科技大学、钢研纳克检测技术股份有限公司、国标(北京)检验认证有限公司、成都材智科技有限公司、西北工业大学、中国工程物理研究院材料研究所、湖南大学、国检集团、中国航发北京航空材料研究院、烟台大学、清华大学、北京航空航天大学、中南大学、中国科学院计算机网络信息中心、中国石化上海石油化工研究院、华南理工大学、北京应用物理与计算数学研究所、上海大学、中国科学院物理研究所、中国科学院金属研究所、中国科学院北京综合研究中心、宁波星河材料科技有限公司、重庆大学、南京工业大学、北京大学、贵研铂业股份有限公司、中国科学院高能物理研究所、中国航空综合技术研究所、苏州热工研究院有限公司、上海华谊集团股份有限公司。