今天是:2024年12月28日
遂宁市政务服务和大数据管理局
基于两项数据库国际标准的探索与实践

  一、数据库国际标准制定的概况与意义

  2017年12月,习近平总书记在中共中央政治局第二次集体学习时提出审时度势、精心谋划、超前布局、力争主动,实施国家大数据战略加快建设数字中国,既要集中优势资源突破大数据核心技术,还要加强国际数据治理政策储备和治理规则研究,提出中国方案。

  数据库作为支撑信息技术、大数据处理的基础软件,是信息产业发展不可或缺的支柱之一。在国家层面,数据库的建模,数据库信息量的大小和使用频度是衡量这个国家信息化程度高低的重要标志。围绕国家大数据战略,掌握自主可控的数据库核心技术,并以此参与并主导数据库国际标准的制定成为推动战略发展不可缺少的实施要素

  (一)制定数据库国际标准是提升产业竞争力的重要措施

  数据库国际标准的制定从1986年到开始,已历经30多年的历史,现主要由ISO、IEC两大国际标准化组织负责。当前,在数据库的市场竞争中,甲骨文、SAP等传统数据库厂商依旧占据着较大的市场份额,中国在数据库国际标准中的影响力距离美国、德国、日本等发达国家还有一定的差距,但随着大数据时代的到来,传统数据库已经不能满足大数据产业的信息处理任务,数据库技术急需升级迭代,为我国数据库产业的发展带来了新的机遇。

  同时,技术的升级迭代也带动了数据库标准制定权的新一轮争夺。控制或影响标准制修订已经成为数据库市场竞争新的焦点,标准竞争优势是一个国家(地区)在国际市场竞争中分配更多利益的重要基础。越来越多的国家和地区将主导制定国际标准作为促进产业升级、提升市场竞争力的重要手段,依托先进的技术标准掌控国际市场竞争的主导权。

  数据库标准竞争的胜利者可以在相当长时期内控制数据库技术发展方向和市场创新方向,对数据库国际市场产生广泛的控制力和行业领导力。数据库标准制定的话语权就是信息产业竞争的主导权,谁掌握了这一话语权,也就掌握了国际市场竞争和价值分配的话语权。

  大力推动中国的数据库标准方案"走出去",让更大范围的国际市场接受和采用中国的数据库标准,将极大地提升我国信息产业市场竞争力,也是我国掌握发展的主动权的必要举措。

  (二)制定数据库国际标准是构建国家影响力的具体抓手

  通过制定数据库国际标准,扩大我国科技的影响力,是科技实现国际化最具实质性意义的一个步骤,为构建中国的科技话语权提供了实际路径。

  引入多方合作机制,推动数据库"中国方案"走出去。我国的数据库国际标准制定工作在国家工业与信息化部、中国电子技术标准化研究院的下正稳步进行,并取得了突破性成果,同时,以柏睿数据为代表的中国企业也有非常积极的表现,共同推动在中国在数据库国际标准领域了从"学习者"到"参与者"再到"重要参与者"甚至"主导者"的角色演进。政府、相关机构、企业的多方合作成为国内标准走向国际舞台的典范。

  国际化数据库标准应用。将中国的数据库国际标准应用到更多大数据项目的实施中,参与更多国家的信息化建设,使中国数据库标准的国际性得到更大程度的体现,将成为中国科技进入国际市场,打造中国形象,形成中国声音的重要渠道。

  二、数据库国际标准制定历程与成果

  (一)中国制定的两项数据国际标准

  在国家工业与信息化部的悉心指导,中国电子技术标准化研究院与柏睿数据的共同努力下,中国在数据库领域国际标准制定中突破了欧美国家的垄断,取得了两项重大的研究成果:

  1.中国提出的 "SQL对MapReduce及与之相关的流数据处理的支持"标准提案,经国际标准化委员会ISO全票通关,定名《SQL9075 2018流数据库》,于2018年正式形成国际标准并规划与2019年全球公布推广,这是第一项由中国主导制定的数据库国际标准。

  *以该项标准化技术所形成的"流数据库"软件主要功能是对"流式数据"的进行实时分析与处理。流式数据是指未进入数据库内、大批量且具有连续性、时效性的数据流,如互联网上实时产生的数据、智能制造中设备运转信息,自动驾驶中的实时地理位置信息等。流数据库依靠强大性能对这些随时变化的数据进行高效的分析与处理。

  2.由中国提出的基于库内人工智能技术的标准提案——《AI-in-Database 库内人工智能》国际标准提案"获得全会复审通过,确定由中国主导形成国际标准。

  *以该项标准化技术所研发的"人工智能并行算法库"将数据库技术与人工智能算法进行了深度融合,在数据库内部直接进行机器学习与深度学习,节省了数据传输所耗费的时间,能够提高数据分析的效率,更快速的支持智能决策。

  同时,大会委托柏睿数据董事长兼CTO刘睿民先生负责这两项国际标准的主笔撰写,他也是上述产品的知识产权拥有者。目前,刘睿民先生还担任中国ISO/IEC人工智能&物联网&智慧城市国际协调员,持续探索我国参与并主导大数据国际标准的工作。

  (二)标准制定基本过程

  一项国际标准的形成,要具备技术领先性、市场适用性等特点,同时还要经过漫长的审核流程,才能确保其权威性。以《SQL9075 2018流数据库》国际标准的通过为例,经历了2015年格拉斯哥会议标准草案提出阶段、2016年东京会议的提案通过阶段,2017年俄亥俄会议的标准形成阶段,2018年多伦多会议的主导确立阶段,到2019年,历时整整五年,才得以正式发布。

  在制定过程中的一些细节尤其值得玩味。例如流数据库国际标准提案获得了代表团的高度评价,但提案人刘睿民由于多年海外留学与工作经历,被误认为美国代表;草案最终发布时,署名改为美国代表Jim Melton,最终这些问题都在工业与信息化部等的帮助下得到了顺利解决,由此我们可以看出发达国家对国际标准制定的重视以及中国在该领域的话语权不足,这也提醒我们只有将核心技术标准掌握在自己手里,才能拥有发展的主动权。

  三、国际标准化大数据技术的融合应用

  技术应该服务于社会、服务于人,只有与具体应用、实体经济相结合,才能发挥出其应有的价值。大数据正在走向与实体经济深度融合的新阶段,需求不断细分,技术不断深耕,深化融合应用,是实现我国大数据战略加快数字中国建设的必然途径。

  通过制定两项数据库国际标准:《SQL9075 2018 流数据库》与《Ai-in-Database 库内人工智能》国际标准,让柏睿数据掌握了数据库研发的核心技术,并将其应用到产品研发当中,形成完善产品体系,逐步建设全内存分布式数据库、全内存流数据库StreamDB、库内人工智能并行算法库,构建起基于自主研发的高性能大数据实时分析平台,支撑各地政府、各领域企业大数据分析应用,下面的案例均应用了基于国际标准的大数据实时分析技术。

  (一)甘肃省市社情民意互联网大数据分析平台

  甘肃省市社情民意互联网大数据分析平台是按照省委、省政府要求,由省统计局牵头建设的信息性智库系统,平台从2017年开始试运行以来,得到了国家统计局民调中心、国家信息中心等相关领导的高度评价,被国家统计局民调中心确认为大数据分析的典型应用案例,向全国民调中心进行推广。

  平台通过实时抓取涉及政治、经济、军事、娱乐、体育、卫生、科技、个人生活等各个领域的数据,运用流数据库对实时事公共事件的媒体报道和公众舆论信息汇聚和统计分析;对突发事件第一时间发出预警,及时准确地把握全局性、倾向性问题;并且通过库内人工智能技术自动生成社情民意监测专报做到准确为民生服务提供及时、准确、全面的决策分析数据支撑。

  (二)宏观经济统计分析平台

  中国人民大学统计学院与柏睿数据共同成了大数据统计分析联合实验室,以宏观经济统计及大数据分析预测为研究方向,形成了宏观经济统计大数据分析平台。平台多维分析、深度挖掘,建立各种指数或模型,反映宏观经济的运行状况和预测未来走势,实时出具宏观经济指标。

  该平台通过对宏观经济数据的实时处理分析,可以帮助相关部门采取有效的宏观经济管理措施来应对经济的发展变化,为政府提供灵活、便捷的经济发展态势,也可以为研究机构提供高品质、低成本、更丰富的经济发展关联信息资源,还可以为企业制订发展策略提供参考,具有广泛的实用性,被评选为工业和信息化部2018大数据产业发展试点示范项目、软博会2018年度十佳优秀案例。

  (三)联通用户标签大数据搜索引擎

  联通用户标签大数据搜索引擎是由柏睿数据与广东联通合作的基于移动运营商的数据建设的一套精准营销平台。主要的功能实现了标签体系的建设,用户画像,相似用户查找功能,总体涉及数据量大,数据要求实时的特点。

  通过柏睿大数据实时分析平台对全网用户的基础信息和行为数据的归纳和分析结果,标识用户的属性特征和行为偏好,以标签信息为基础刻画形成用户360°的用户画像。涵盖9大类,共计3700余个用户标签。并形成互联网信息库,对互联网日志中的URL/APP等内容进行识别的规则管理,从而识别出用户上的网站、使用的APP、搜索的关键字、产生的行为、访问的内容等。该平台可以识别4亿URL,20万个互联网产品,1.3万余款APP,基础词库14类2040万个关键词。