您的位置:首页 > 互联网

邬贺铨:AI时代的数据要素开发与治理_邬征 爱科百发

发布时间:2023-11-06 19:00:39  来源:互联网     背景:

通信世界网消息(CWW)人工智能概念的提出已有60多年时间,但直到1997年IBM的深蓝计算机战胜国际象棋大师才为大众所知,不过基于专家系统经验的智能有限。2016年,AlphaGo战胜世界围棋高手初显大数据实力,但也只是在规则下的算法熟能生巧,类似的方法推动了自然语言识别与人脸识别技术的发展。

2022年底,ChatGPT的问世标志着人工智能从判别式发展到生成式的跨越,虽然目前的大模型只是针对特定任务和指定模态,离通用人工智能还有不少距离,但语言大模型让机器初步具有常识,懂得推理,学会创作,让人和机器能以较自然的方式互动,通过与周边工具的结合,表现出拟人的智能。

与AlphaGo将数据作为查询和判别的依据不同,ChatGPT可以说读透与消化了数据,融会贯通计上心来,得出源于数据高于数据的结论。生成式大模型赋予数据以新的生命力,AI时代大数据蕴含的价值将进一步涌现。数据因AI而变得越来越重要,数据要素是新型生产力的代表,数据挖掘能力成为新时代的国家重要竞争力。

一、培育数据资源,促进开放共享

中国工程院院士邬贺铨开讲啦

邬征 爱科百发

数据是生产和生活过程的记录及对自然观察的结果。2022年中国人口占全球18%,网民占全球21.5%,GDP占全球18.06%。据国家网信办《数字中国发展报告(2022年)》数据显示,2022年我国数据产量达8.1ZB,同比增长22.7%,全球占比为10.5%,位居全球第二;我国数据存储量达724.5EB,同比增长21.1%,全球占比为14.4%。中国产生和存储的数据在全球的占比均低于中国的人口、网民和经济规模在全球的比例。据Synergy Research Group截至2021年Q3季度统计,美国大规模数据中心在全球占比高达49%,其次是中国占比为15%。可见我国数据存储量与美国相比差距还比较大,这反映了我国在社会信息化和产业数字化程度上仍落后于美国,加快数字中国的建设将有望尽快改变这一状况。政府与研究机构及企业都会存储大量数据,其中政府掌握全社会数据约80%,而且是高质量数据,但主要却仅供内部使用甚至是本部门内小单位各自存储和使用而非共享,数据利用率不高。需要从制度上明确共享内容、权限和责任,促进政府部门间数据共享,更精准地把握社会和经济运行全局,提升政府部门间工作的协同性。与共享相比,数据开放更是社会数字化的标志之一,政府及企事业单位掌握的公共数据具有很强的社会性,政府开放数据对提升政府公信力、降低社会成本,带动数字经济发展有重要作用。国际上将政府数据开放作为数字政府的重要衡量指标,据《联合国电子政务调查报告2022》数据显示,从2012年到2022年的十年间,中国在线服务指数从0.5294上升到0.8876,在193个国家中排名从第62位上升到第15位,爱沙尼亚、芬兰、韩国位居前三,美国第8,日本第9。我国还存在政务数据标准规范体系待健全、政务数据统筹管理机制待完善,政务数据安全保障能力待加强的问题,需要从建设数据流通基础制度体系入手,加快数据立法,完善制度规范,统筹协调推进,编制数据目录,分类分级管理,夯实共享开放机制,提升安全保障。除了政府开放数据以外,社会公共数据的开源开放也表征数据流通的水平。人工智能生成内容(AIGC)大模型都是利用语料库训练的,一些互联网大厂利用电商、社交、搜索等业务收集和标注了海量的语料供自身训练大模型使用,没有语料积累的企业和研究机构虽然可以从网络获得语料,但自媒体内容质量良莠不分,未经清洗与标注就用作大模型的训练语料其效果堪忧。ChatGPT大模型训练时使用了开源语料库,但中文词元(Token)占比不到0.1%,还不及一些小语种的比例,其中的原因与中文开源语料库数量少和规模小有关。

国内高校也有数亿到数十亿字的语料库但尚未开源。国内一些语言大模型直接采用国外开源语料库训练,在价值观的把控上存在潜在风险,建议对面向公众开放应用的对话类大模型需要做语料来源的评估。面向重要应用场景的大模型不宜强调训练用数据免标注和无监督学习,还是要采用经过清洗标注的数据集和保留人工微调,即有监督学习环节。行业大模型的训练也面临挑战,专业数据没有通用数据容易获得,行业内的企业间往往不愿共享专业数据。为此有必要建立高质量国家级重要行业领域基础知识库、数据库、资源库等。此外要鼓励社会数据要素的合理流动和利用。中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》提出,依法规范、共同参与、各取所需、共享红利的发展模式,将合理降低市场主体获取数据的门槛,增强数据要素共享性、普惠性,激励创新创业创造。

二、大模型驱动数据范式创新

中国工程院院士邬贺铨开讲啦

基础大模型通常从通用语料训练生成,通识能力强,从聊天对话入手容易反馈迭代优化,但聊天难成刚需,落地行业应用将更显大模型的价值,但基础大模型缺乏行业专业知识,需要大模型提供方与垂直行业合作开发行业大模型。

一种模式是企业将数据交基础大模型进行再训练,待调优至理想后再进行知识蒸馏、量化及针对特定场景迁移等缩小模型规模的工作,但后续模型微调和云边端部署等仍需算法工程师支撑,企业技术力量不足还得依赖模型提供方,企业数据交到模型提供方有数据泄漏风险,但数据不全面则会导致训练效果差。

另一种模式是企业具有算法工程师,按照特定业务场景以专有数据对基础大模型进行微调,形成行业大模型或多个基于实际业务的小模型,最好是在预训练阶段就加入垂直行业企业的数据,预训练和指令微调交错进行,提高模型对行业知识的表达、理解、迁移和泛化能力。

一些强监管、重数据安全的行业核心企业,例如头部金融机构等,通常不会在第三方基础大模型上构建专业大模型,而是采用数据私有化、模型私有化、本地私有云方式构建大模型,即在加密环境中使用私有数据训练专业大模型,但需要面对成本与技术门槛高的挑战。总的来说,无论自建或合作开发行业大模型,数据安全都是前提,既掌握大模型训练技术又熟悉行业专业知识的人才是关键。中小企业因资金、技术和人才的限制,少有能力与基础大模型提供方合作开发行业大模型,MaaS(模型即服务)应运而生,这是针对中小企业而提出的服务模式,MaaS部署在中小企业本地设备上或公有云上,以小切口嵌入PaaS与SaaS间,并提供调用基础大模型的接口,可加入企业自身数据对模型精细化调整,从而将大模型能力嵌入到SaaS产品上,解决了传统SaaS面临的客户定制化需求和标准化产品规模化盈利之间的难题。基于MaaS通过大模型可优选小程序及配套的低代码开发和模型编排等工具,PaaS可据此搭建低代码平台,丰富工具软件,实现数据和功能的定制化,以MaaS方式使中小企业上云的同时使用个性化的小模型,为数字化转型提供智能解决方案。当前大模型不仅是一种技术,它重塑了数据要素生态链,引领产业研究开发应用的范式变革,标志着信息化发展从网络驱动到数据驱动。面对大模型浪潮,需要在国家战略与规划部署下,统筹推进政产学研用,引导“百模并发”形成合力,避免资源分散和低水平重复,实现数据采集汇聚、加工处理、流通交易、开发应用全链条协同。

三、数据助力社会治理信息化

习近平总书记指出“随着互联网运用普及和大数据等技术快速发展,国家治理正逐步从线下向线下线上相结合转变,从掌握少量‘样本数据’向掌握海量‘全体数据’转变,这为推动治理模式变革、提升国家治理现代化水平提供了有利条件”。从网格化管理、精细化服务、信息化支撑的基层治理平台,到一网统揽一网通办的城市大脑,利用大数据、人工智能、物联网等信息化手段感知社会态势、畅通沟通渠道、支持快速响应,推进政府决策科学化、社会治理精准化、公共服务高效化。

特别是AIGC技术的应用,重构政府与民众之间的互动过程,大模型能够提升对现实生活中复杂大系统问题的处理能力,能够精准防控社会发展中的风险,能够有力维护政治稳定和社会安全,进一步促进经济发展和社会进步。AI特别是生成式大模型技术是双刃剑,其推理过程不透明,解答有自圆其说的成分,尤其使用了未经鉴别的语料训练用于社会治理的大模型,可能会触发对公众的误导,甚至引起价值观的冲突。AI技术也可能被滥用或恶意利用来制造虚假新闻,引发社会传播风险,危害国家安全。我们既要用AI来辅助社会治理也要治理AI行为,但不能因AI的使用可能失控而限制对AI技术的研究与应用,AI技术需要在应用中反馈和迭代升级。当前,国际贸易、科技合作、人员往来不可避免数据跨境流动,数据的社会治理也面临对外开放的挑战,解决之道是AI监管制度体系建设与AI技术研究并重,发展与安全治理协同,使AI的监管创新与技术发展相辅相成,以技术手段和治理规范两手应对大模型的算法偏见和伦理道德失序,以法律法规防止各类数据安全事件发生和维护国家安全。为此,首先需要按照《关于构建数据基础制度更好发挥数据要素作用的意见》,尽快完善数据产权制度、数据要素流通和交易制度、数据要素收益分配制度、数据要素治理制度,为AI技术的发展与治理提供行为规范。其次是重视数据监管的技术创新,APN6(基于IPv6的应用感知网络) 和iFIT(基于IPv6的随流检测)可以标注IP流的属性,包括数据类型和对IP流路径溯源,有利于对跨境数据流动的管理,IPv6的多归属特性可以分流敏感数据。多方计算等技术可以在不同所有者的数据融合时做到数据可用不可见。加快各类数据监管和数据安全技术的研究已成当务之急,要为数据管理规范尽快填补技术支撑手段的不足或缺失。

四、加快数据基础设施建设

大模型的数据训练与推理都需要算力支撑,中国2022年算力总规模为180Eflops,低于2021年美国的200Eflops,其中智能算力2022年中国为41Eflops,不及2021年美国的65Eflpos,这反映了我国在大模型的数据训练和推理算力上的差距。算力的建设是市场行为,但国家统筹推进将优化资源的利用和产业的合理布局。“东数西算”作为国家战略部署具有中国特色,反映我国区域经济、地理气候特点和能源分布的格局,政府之手的作用在东西部数据资源配置与有效应用上不是可有可无的。西部不足之处是数据中心产业配套能力薄弱和人才短缺,需要同步规划布局数据清洗标注、数据机房产品及服务业的培育发展,延伸产业链上下游,在做好承接东部的温冷数据的存算的同时,还要带动起当地热数据的上云服务,使西部的数据集群发展形成良性循环。

算力的布局需要处理好几方面的关系,一是通用算力与智能算力的合理比例,通用算力以CPU为主,适合处理政务、智慧城市和智能客服等数据/计算密集的事务性任务;智能算力以GPU为主,适合做大模型的训练,注意到在数据训练过程中还需要算法工程师介入和微调,智算中心适于在数据源集中和算法工程师聚集地建设,不宜全面开花,动用财政资金支持的大型智算中心的建设应慎重规划。

二是自建算力与云原生算力,很多单位有自建算力的积极性,但麦肯锡报告显示,商用和企业数据中心的服务器很少超过6%的利用率,通常高达30%的服务器带电闲置。需要鼓励中小企业从自购AI服务器搭建数据中心向采购云服务转变,既降低成本又提高利用率,增强抗DDoS的能力及减碳;需要引导县级地方政府使用省地集中建设的政务云代替独立采购IT基础设施。

三是存算比例,存力与算力需配合,内存与算力合理比例是GB/Gflops为1,避免因存力短缺造成算力等待而影响处理效率,据华为/罗兰贝格报告,2020年美国为1:0.9,中国为1:2.4。

2021声音最大的手机

四是灾备容量与主用数据中心存储容量之比,数据中心需异地双容灾备份,关键数据实现本地双活,2020年当年数据灾备保护占数据中心存储投资的比例全球平均为27.4%,而我国只有7.8%,需重视改进。

数据作为生产要素是经济理论与实践的创新。数据与土地、劳动力、资本等传统生产要素不同,数据要素的开发与治理有很多需要深入研究的问题,例如数据的可复制性、使用无损性等导致数据产权和安全管理边界难以界定。党中央决策部署组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,将有力促进数据要素技术创新、开发利用和有效治理,以数据强国支撑数字中国的建设。


返回网站首页

本文评论
关于开展2021年新能源汽车下乡「多地启动新一轮汽车促消费:覆盖燃油车,鼓励新能源汽车下乡」
进入下半年,汽车促消费已成为各地政策热点。在不少地区,燃油车不再“坐冷板凳”,汽车下乡更是成为了近期政策的关键词。8月7日,河南省人民政府办公厅发布关于印发《持续扩大消费...
日期:08-12
IDC预计到2026年50%终端将搭载硬件AI引擎功能「idc2021」
通信世界网消息(CWW)随着近年来人工智能的快速迭代与发展, 数据大模型日益完善。AI的场景化落地成为未来发展的重要突破口,终端的AI化也成为了AI发展与落地的重要支持方向。IDC...
日期:07-25
支持Wi-Fi 7 某品牌发布4个千兆网口的单板机_支持千兆网络的双绞线是
近日,香蕉派发布了一款名为BPI-R4的单板计算机(SBC),最大的特点是配备了4个千兆网口,支持Wi-Fi 7和5G连接,可以满足路由器定制需求。 该主板采用联发科MT7988A(Filogic 880)处理器...
日期:06-27
阿里巴巴国际站发布AI采购助手“Smart Assistant”
9月11日 消息:近日,阿里巴巴国际站宣布,在美国 Co-Create2023大会上,旗下AI采购助手“Smart Assistant”正式推出。据介绍,该工具包括智能升级后的图片搜索、RFQ、沟通工具和采...
日期:09-11
淘宝发钱,死磕内容_淘宝的发放金是怎么回事
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬,授权转载发布。在淘宝月入千万,这是最近某内容机构立下的Flag。一年多来,为了加码内容化,增加平台内的非卖货类视频、直...
日期:08-10
达摩院推出人工智能框架HQTrack 可实现视频高质量跟踪
7月31日 消息:中国大连理工大学和阿里巴巴集团 DAMO Academy 提出的一个名为 HQTrack 的系统。该系统由视频多目标分割器(VMOS)和掩模优化器(MR)组成,旨在实现对视频中任何目标...
日期:07-31
联想ideapad y530「联想ideapad y530最大支持内存」
是一款笔记本电脑,它的外观设计简约大方,黑色的机身配合银白色的键盘,让整个笔记本显得非常时尚。此外,它还具有出色的性能和稳定性,是一款非常适合办公和娱乐的笔记本。xy苹果助...
日期:05-31
雨雪降温重心转移至南方 大范围雨雪天气明日结束_南方11省升温 北方雨雪或破纪录
1月15日消息,中国天气网消息,今天雨雪范围将进一步缩减,雪线南压;明天,大范围雨雪天气将基本结束。气温方面,今天降温重心主要在南方。随着寒潮过程收尾,明天起,大部气温逐渐回升。...
日期:01-15
孤女继承巨额遗产 新闻「孤女百万遗产遭舅舅私自处置 检察官帮其追回」
最近,小玲的舅舅陈某私自处理了小玲父母留给她的房产一事引发了网友的关注。据了解,小玲在一夜之间失去了双亲,成为孤儿,她的舅舅陈某成为了她的监护人。然而,陈某财迷心窍,没有告...
日期:04-25
HMD计划2020年推出5G手机_5g手机发布时间表2020
  (原标题:HMD计划2020年推出5G手机,售价是当前5G手机的一半)   8月29日消息 HMD公司决定在2020年前推出新的5G智能手机。HMD首席产品官表示,公司正在寻求扩大市场规模,并...
日期:07-26
曝华为Mate 60首发鸿蒙OS 4.0 下半年亮相_鸿蒙系统华为m6
有消息称,华为Mate 60系列将在9月正式发布,而近期鸿蒙OS 4.0也在积极的准备中,提升系统的安全性和流畅度。爆料称华为Mate 60将搭载高通骁龙84G版本,Mate 60 Pro将搭载高通骁龙8...
日期:07-02
苹果什么时候换的oled「曝苹果将在2027年全面改用OLED显示屏」
近日,据技术公司Omdia透露,苹果公司计划逐步将旗下所有设备转换为OLED显示屏,并推出32英寸和42英寸的外接显示器。目前,苹果已经在iPhone、Mac等常用设备中广泛采用OLED显示屏,明...
日期:04-23
马斯克把特斯拉送入太空「马斯克“黑子”自费400万元 把特斯拉FSD负面广告送上美国超级碗」
绿色山软件(Green Hills Software)首席执行官丹奥多德(Dan ODowd),也是马斯克最大的黑粉”,为了公开反对特斯拉FSD自动驾驶的安全性,他甚至愿意花费数百万元,将特斯拉FSD负面广告送...
日期:02-15
今冬来最强寒潮明日登场 大城市降温日历出炉:最低-15℃「明日寒潮将至!四问今冬最强寒潮天气」
准备好了吗?透骨的寒冷要来了!华云许广彬据中国天气报道,今冬以来最强寒潮过程将于明天(11月26日)强势登场。受其影响,未来一周,我国中东部大部地区将先后遭遇寒冷暴击,28个省会级城...
日期:11-26
李彦宏:百度文心一言和ChatGPT差距也就一两个月
日前,百度正式发布了自己的AI大模型文心一言”,李彦宏在发布会上表示,目前百度是全球大厂中第一个做出对标ChatGPT产品的企业。近日,李彦宏在极客公园的直播中表示,文心一言差不...
日期:03-26
游戏一年狂收18亿美元  《原神》动画又能赚多少?_原神游戏成本
  记者/温梦华; ;  编辑/张海妮;;  一年狂揽超18亿美元的《原神》要做动画了。  近日,米哈游宣布与全球知名动画制作公司ufotable(飞碟桌)共同制作的《原神》动画正式...
日期:09-30
邬贺铨院士:6G比5G快1000倍,有这个必要吗?「中国工程院院士邬贺铨5g」
  文;| 张俊  本期嘉宾:  中国工程院院士;邬贺铨  这是一个新技术交汇的时代,AI、5G等前沿技术正在加速改变我们的生活。  在由微博、新浪新闻主办的2022新智者大会...
日期:09-27
2019岁末盘点!科技发烧友不能错过的最新应用
  2019年,是我国科技快速发展的一年。在这一年中,我国科技企业在“贸易战”的影响之下依然取得了骄人的成绩。站在2020这样的年代节点上,我们为科技发烧友们盘点出了在过去...
日期:11-11
电梯广告老大_电梯洗脑广告引热议,今天你当贝了吗?
  摘要:别人都是转角遇到爱,   为啥我是电梯里尴尬???   聊天声戛然而止,   呼吸声变得急促,   喉头发紧吞咽口水,   视线360°无死角慌乱...   想什么呢!   这...
日期:10-20
五菱宏光miniev限量版「人民代步车!宏光MINIEV累计销量破百万:限时优惠2.98万起」
1月30日,上汽通用五菱官方宣布五菱宏光MINIEV取得全球小型纯电动汽车销量冠军,自2020年7月24日上市以来,截至2023年1月29日,该车全球销量累计已达111万辆,其中在2022年就卖出了55...
日期:01-31