问答:中国软件评测中心(工业和信息化部软件与集成电路促进中心)相关负责人谈文心一言测评 通信产业网|2023-09-11 11:27:26作者:崔亮亮来源:通信产业网
波士顿机器人操作秀
【通信产业网讯】(记者 崔亮亮)近日,中国软件评测中心(工业和信息化部软件与集成电路促进中心)对“文心一言V2.2.1”进行测试,结果显示,在功能性方面符合测试需求规格说明书的相关要求,系统功能运行正常,通过了中国软件评测中心(工业和信息化部软件与集成电路促进中心)的软件产品单项功能测试。那么,通过文心一言测试,反映了行业怎样的趋势?
比荣耀智慧屏好的电视
为此《通信产业报》全媒体就本次测试结果与中国软件评测中心人工智能测评事业部副主任孙佰鑫进行相关问答,以下为问答实录。
1.测试的维度有哪些?体现了文心一言大模型什么样的特征?
本次针对文心一言V2.2.1进行了单项功能测试,基于委托方提供的包含偏见歧视、违法犯罪、身心伤害、个人隐私、违背道德伦理、不良诱导、脏话侮辱共1400条不同文本数据样本,验证了文心一言V2.2.1在毒害信息识别过滤方面的能力。
2.您如何评价目前的“百模大战”?还存在哪些问题需要改善?
目前国内已发布120多个大模型,可谓是“百花齐放”。这反映了国内各界对大模型发展和应用潜力的极大认同,产学研用的积极投入有利于繁荣产业生态。然而这也带来了一些问题,存在炒作、泡沫的倾向和同质化现象,也有声音质疑部分大模型是国外开源大模型的“套壳”产品,国内大模型在底层技术、研发能力和产品功能性能方面,与国际一流水平仍存在差距。我们需要更加脚踏实地、步步为营,补上落下的课,例如研发更优质的算法模型、更高效的训练方法、更好的模型压缩技术等。
3.您认为在激烈的竞争中,大模型发展的关键是什么?
我认为大模型发展的关键在于以下几方面:
一是训练数据的数量、丰富度、质量。大量高质量的数据可以更好地训练大模型,数据覆盖面越广泛越有利于大模型的通用能力和性能,因而在数据采集和标注方面需要投入更多资源。
二是算力资源和算法。大模型训练需要大量的计算资源,尤其是高性能AI芯片,当前高性能AI芯片供应紧俏且美国持续对我国进行限制,国内算力资源紧张的情况亟待解决。算法是人工智能的灵魂,更好的模型结构能够大幅度提高模型的性能,提高训练效率、减少训练成本,特别是,能否原创研究出更有效的算法,将很大程度上决定着能否弯道超车并建立竞争优势。
三是应用场景的探索。应用落地是大模型发展的最终目的,目前大模型的应用尚处于起步阶段,如何将其应用到行业垂直领域尤其是碎片化的具体场景、为千行百业赋能,还需要产学研用等各方共同努力。
四是可解释性和安全。当前大模型的决策过程不够透明,提高模型的可解释性和可信度是放心应用大模型的保障。大模型目前还存在“幻觉”现象,也有研究人员通过各种方式诱导大模型生成不良内容,说明大模型还不够安全,需要做好风险防范和应对。
总之,大模型的发展还任重道远,需要持续理论技术创新、应用实践的积累,需要各方面资源的持续耐心投入,并需要处理好发展和安全的关系,才能更好让大模型服务于经济社会发展。
责任编辑:崔亮亮