人工智能概念的提出已有60多年时间,但直到1997年IBM的深蓝计算机战胜国际象棋大师才为大众所知,不过基于专家系统经验的智能有限。2016年,AlphaGo战胜世界围棋高手初显大数据实力,但也只是在规则下的算法熟能生巧,类似的方法推动了自然语言识别与人脸识别技术的发展。
2022年底,ChatGPT的问世标志着人工智能从判别式发展到生成式的跨越,虽然目前的大模型只是针对特定任务和指定模态,离通用人工智能还有不少距离,但语言大模型让机器初步具有常识,懂得推理,学会创作,让人和机器能以较自然的方式互动,通过与周边工具的结合,表现出拟人的智能。与AlphaGo将数据作为查询和判别的依据不同,ChatGPT可以说读透与消化了数据,融会贯通计上心来,得出源于数据高于数据的结论。
生成式大模型赋予数据以新的生命力,AI时代大数据蕴含的价值将进一步涌现。数据因AI而变得越来越重要,数据要素是新型生产力的代表,数据挖掘能力成为新时代的国家重要竞争力。
数据是生产和生活过程的记录及对自然观察的结果。2022年中国人口占全球18%,网民占全球21.5%,GDP占全球18.06%。据国家网信办《数字中国发展报告(2022年)》数据显示,2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比为10.5%,位居全球第二;我国数据存储量达724.5EB,同比增长21.1%,全球占比为14.4%。中国产生和存储的数据在全球的占比均低于中国的人口、网民和经济规模在全球的比例。据Synergy Research Group截至2021年Q3季度统计,美国大规模数据中心在全球占比高达49%,其次是中国占比为15%。可见我国数据存储量与美国相比差距还比较大,这反映了我国在社会信息化和产业数字化程度上仍落后于美国,加快数字中国的建设将有望尽快改变这一状况。
政府与研究机构及企业都会存储大量数据,其中政府掌握全社会数据约80%,而且是高质量数据,但主要却仅供内部使用甚至是本部门内小单位各自存储和使用而非共享,数据利用率不高。需要从制度上明确共享内容、权限和责任,促进政府部门间数据共享,更精准地把握社会和经济运行全局,提升政府部门间工作的协同性。与共享相比,数据开放更是社会数字化的标志之一,政府及企事业单位掌握的公共数据具有很强的社会性,政府开放数据对提升政府公信力、降低社会成本,带动数字经济发展有重要作用。
国际上将政府数据开放作为数字政府的重要衡量指标,据《联合国电子政务调查报告2022》数据显示,从2012年到2022年的十年间,中国在线服务指数从0.5294上升到0.8876,在193个国家中排名从第62位上升到第15位,爱沙尼亚、芬兰、韩国位居前三,美国第8,日本第9。我国还存在政务数据标准规范体系待健全、政务数据统筹管理机制待完善,政务数据安全保障能力待加强的问题,需要从建设数据流通基础制度体系入手,加快数据立法,完善制度规范,统筹协调推进,编制数据目录,分类分级管理,夯实共享开放机制,提升安全保障。
除了政府开放数据以外,社会公共数据的开源开放也表征数据流通的水平。人工智能生成内容(AIGC)大模型都是利用语料库训练的,一些互联网大厂利用电商、社交、搜索等业务收集和标注了海量的语料供自身训练大模型使用,没有语料积累的企业和研究机构虽然可以从网络获得语料,但自媒体内容质量良莠不分,未经清洗与标注就用作大模型的训练语料其效果堪忧。ChatGPT大模型训练时使用了开源语料库,但中文词元(Token)占比不到0.1%,还不及一些小语种的比例,其中的原因与中文开源语料库数量少和规模小有关。国内高校也有数亿到数十亿字的语料库但尚未开源。国内一些语言大模型直接采用国外开源语料库训练,在价值观的把控上存在潜在风险,建议对面向公众开放应用的对话类大模型需要做语料来源的评估。面向重要应用场景的大模型不宜强调训练用数据免标注和无监督学习,还是要采用经过清洗标注的数据集和保留人工微调,即有监督学习环节。
行业大模型的训练也面临挑战,专业数据没有通用数据容易获得,行业内的企业间往往不愿共享专业数据。为此有必要建立高质量国家级重要行业领域基础知识库、数据库、资源库等。此外要鼓励社会数据要素的合理流动和利用。中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》提出,依法规范、共同参与、各取所需、共享红利的发展模式,将合理降低市场主体获取数据的门槛,增强数据要素共享性、普惠性,激励创新创业创造。
二、大模型驱动数据范式创新
三、数据助力社会治理信息化
大模型的数据训练与推理都需要算力支撑,中国2022年算力总规模为180Eflops,低于2021年美国的200Eflops,其中智能算力2022年中国为41Eflops,不及2021年美国的65Eflpos,这反映了我国在大模型的数据训练和推理算力上的差距。算力的建设是市场行为,但国家统筹推进将优化资源的利用和产业的合理布局。“东数西算”作为国家战略部署具有中国特色,反映我国区域经济、地理气候特点和能源分布的格局,政府之手的作用在东西部数据资源配置与有效应用上不是可有可无的。西部不足之处是数据中心产业配套能力薄弱和人才短缺,需要同步规划布局数据清洗标注、数据机房产品及服务业的培育发展,延伸产业链上下游,在做好承接东部的温冷数据的存算的同时,还要带动起当地热数据的上云服务,使西部的数据集群发展形成良性循环。
算力的布局需要处理好几方面的关系,一是通用算力与智能算力的合理比例,通用算力以CPU为主,适合处理政务、智慧城市和智能客服等数据/计算密集的事务性任务;智能算力以GPU为主,适合做大模型的训练,注意到在数据训练过程中还需要算法工程师介入和微调,智算中心适于在数据源集中和算法工程师聚集地建设,不宜全面开花,动用财政资金支持的大型智算中心的建设应慎重规划。二是自建算力与云原生算力,很多单位有自建算力的积极性,但麦肯锡报告显示,商用和企业数据中心的服务器很少超过6%的利用率,通常高达30%的服务器带电闲置。需要鼓励中小企业从自购AI服务器搭建数据中心向采购云服务转变,既降低成本又提高利用率,增强抗DDoS的能力及减碳;需要引导县级地方政府使用省地集中建设的政务云代替独立采购IT基础设施。三是存算比例,存力与算力需配合,内存与算力合理比例是GB/Gflops为1,避免因存力短缺造成算力等待而影响处理效率,据华为/罗兰贝格报告,2020年美国为1:0.9,中国为1:2.4。四是灾备容量与主用数据中心存储容量之比,数据中心需异地双容灾备份,关键数据实现本地双活,2020年当年数据灾备保护占数据中心存储投资的比例全球平均为27.4%,而我国只有7.8%,需重视改进。
数据作为生产要素是经济理论与实践的创新。数据与土地、劳动力、资本等传统生产要素不同,数据要素的开发与治理有很多需要深入研究的问题,例如数据的可复制性、使用无损性等导致数据产权和安全管理边界难以界定。党中央决策部署组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,将有力促进数据要素技术创新、开发利用和有效治理,以数据强国支撑数字中国的建设。
关注微信公众号
Copyright © 2015-2021 www.zlict.com All Rights Reserved. 鲁ICP备2023002201号-1