您的位置:首页 > 互联网

清华北航博士生强迫Gemma-2说中文!弱智吧、角色扮演、数学问题表现惊喜

发布时间:2024-07-07 14:05:52  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】谷歌的Gemma2刚刚发布,清华和北航的两名博士生就已经成功推出了指令微调版本,显著增强了Gemma29B/27B模型的中文通用对话、角色扮演、数学、工具使用等能力。

众所周知,很多国外LLM一直存在非英语歧视问题,英语和其他语言在LLM中存在的性能差距有时可以用悬殊来形容。

之前就有网友发现,GPT-4o分词器语料库中,中文数据污染非常严重,赌博色情网站是一个也不少,严重影响了我们用中文和AI机器人好好聊天。

最近发布的Gemma2模型虽然既开源又强悍,但比较遗憾的是,其中文水平相较英文水平还有一定的距离。

不过,我们可以用微调来解决,Fine-tune it!

苹果什么时候适配王者荣耀120帧

7月1日,Gemma2刚发布4天,清华大学的一名人工智能博士生王慎执就在X上隆重推出了一款微调模型Gemma-2-9B-Chinese-Chat。

图片

Gemma-2-9B-Chinese-Chat是第一个为中文和英文用户量身定制的Gemma-2模型,针对超过100K的偏好对进行了微调!

我们的模型在中文提示方面表现出色,并显示出更好的逻辑、编码、数学和写作技能。

关于项目的更多信息,可以在Huggingface上查阅。

图片

项目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat

更让人惊喜的是,1天之后,27B的微调版本也上线了。根据HuggingFace主页信息,模型的下载量已经超过了3.4万。

图片

项目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat

项目介绍显示,采用的微调算法是ORPO,ORPO将监督微调(SFT)和RLHF或DPO等偏好对齐方法合二为一,是一种非常聪明的算法。

与原来的9B Gemma2模型相比,微调的Gemma-2-9B-Chinese-Chat模型大大减少了中文问题英文回答和中英文混杂回答的问题,在角色扮演、工具使用和数学方面的表现都有所提高。

就连应对最佳中文训练数据弱智吧的问题,都有非常出色的表现。

示例

微调模型贡献者给出了一些示例,包括角色扮演、函数调用、数学、弱智吧、安全、写作、编码等。

而且还给出了一个在线demo,嘿嘿,这下有得玩了。

角色扮演

首先让LLM扮演周杰伦唱rap:

图片

图片

再扮演鲁智深试试呢?给出的示例是下面这样似儿的——

图片

但小编用在线demo亲自尝试了一下,发现这位鲁智深粗鲁不起来,目前还没有很好的连续性。

图片

数学

年龄问题、鸡兔同笼问题,Gemma-2-9B-Chinese-Chat都轻松应对。

图片

弱智吧

弱智吧的各种文字游戏,是NLP程序员最讨厌的,但微调模型在处理弱智吧的一些言论时,似乎表现还不错。

图片

图片

图片

函数调用

用户输入:

Hereisalistoftoolsthatyouhaveavailabletoyou:```pythondefinternet_search(query:str):"""ReturnsalistofrelevantdocumentsnippetsforatextualqueryretrievedfromtheinternetArgs:query(str):Querytosearchtheinternetwith"""pass``````pythondefdirectly_answer():"""Callsastandard(un-augmented)AIchatbottogeneratearesponsegiventheconversationhistory"""pass```Write'Action:'followedbyalistofactionsinJSONthatyouwanttocall,e.g.Action:```json[{"tool_name":"toolname(oneof[internet_search,directly_answer])","parameters":"theinputtothetool"}]

微调模型输出:

[{"tool_name":"internet_search","parameters":{"query":"biggestpenguinintheworld"}}]

安全

图片

写作

让模型写一段关于人工智能的综述,你将会得到——

人工智能(AI)是计算机科学的一个分支,它专注于创造能够执行复杂任务的智能机器。AI的目的是创建能够学习、解决问题和理解自然语言的系统。人工智能的应用非常广泛,包括图像识别、语音助手、推荐系统、自动驾驶汽车和预测性维护等。

AI技术可以分为几个不同的类别,包括机器学习、深度学习和自然语言处理。机器学习是人工智能的一个分支,它专注于创建能够从数据中学习和做出预测的算法。深度学习是机器学习的一个子集,它使用人工神经网络来模拟人类大脑的功能。

AI在医疗保健、金融、运输和零售等多个行业都有广泛的应用。在医疗保健领域,AI正在帮助医生诊断疾病、预测患者护理需求以及个性化治疗计划。在金融服务行业,AI正在用于欺诈检测、风险管理和个性化投资建议。

AI在提高效率、减少成本并推动创新方面有着巨大的潜力。然而,AI也带来了挑战,包括就业的流失、隐私问题以及伦理考虑。随着AI技术的快速发展,各国政府和组织正在制定新的法律和法规来应对这些挑战。

总之,人工智能是当今世界最激动人心的创新之一。随着AI技术的不断进步,它有潜力彻底改变我们的工作方式、生活方式和社会结构。然而,AI也提出了新的伦理和社会问题,这些问题需要我们仔细考虑。

编码

用户输入:

用python写一个函数实现快速排序算法,要求输入为一个列表,列表里的元素都是float类型,返回一个排好序后的列表。记住要给代码加中文注释。

微调模型输出:

defquick_sort(nums):#快速排序的递归函数#如果列表长度小于等于1,则直接返回,因为列表已经是排序好的iflen(nums)<=1:returnnums#选择基准值,这里选择列表的第一个元素pivot=nums[0]#分隔列表,将小于基准值的元素放在左侧,大于基准值的元素放在右侧left=[numfornuminnums[1:]ifnum<pivot]right=[numfornuminnums[1:]ifnum>=pivot]#递归地对左侧和右侧进行快速排序left=quick_sort(left)right=quick_sort(right)#将左侧、基准值、右侧合并成一个排序后的列表returnleft+[pivot]+right

作者信息

Gemma-2-9B-Chinese-Chat和Gemma-2-27B-Chinese-Chat微调模型的贡献者是王慎执和郑耀威。

王慎执同学是清华大学自动化系LEAP实验室的三年级博士生,导师是宋士吉教授和黄高副教授。

在此之前,他在北京航空航天大学沈元荣誉学院计算机科学与技术专业以优异成绩获得工学学士学位。

王同学是开源项目的积极倡导者,几个流行的微调LLM都是他发布的,如Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat和Mistral-7B-v0.3-Chinese-Chat。

业余时间,他还会在知乎上写一些中文科技博客,目前有10k+粉丝。

郑耀威是王慎执在本科期间的同学,他们此前就曾多次合作。

郑耀威目前仍在北航读博,他曾以第一作者在CVPR、AAAI、WWW等顶会发表多篇论文,并担任AAAI、EMNLP、Neural Computation等会议和期刊审稿人。

他也是大模型微调框架LLaMA Factory的发起人和主要开发者,GitHub开源项目获得超过2万星标。

在这些优秀的贡献者的不断努力之下,开源模型之路会越走越宽广,模型的中文能力也会逐渐增强。

参考资料:

https://x.com/ShenzhiWang_THU/status/1807640624402923779

https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat

https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat


返回网站首页

本文评论
已证实!知名平台CEO失联_平台创始人
据封面新闻消息:日前,有多方信源透露,斗鱼董事会主席兼CEO陈少杰已于近日失联。11月6日,记者就相关内容向斗鱼方面求证,证实了陈少杰失联的消息。此前,有传言称,斗鱼CEO陈少杰被查,...
日期:11-07
联发科天玑900的功耗「超生猛!天玑9300全大核功耗降幅超50%,联发科再度登顶出货量之首」
连续 12 个季度夺得全球智能手机芯片市场份额第 一!联发科前进的脚步已经无人能挡。在Counterpoint Research刚刚公布的 2023 年Q1 智能手机芯片市场报告结果中,联发科以32%的...
日期:06-06
单板电脑知乎「单板电脑」
单板电脑(Single Board Computer,SBC)是指整个计算机系统(包括CPU、存储器、接口电路、时钟电路、电源电路等)在一块电路板上实现的计算机。目前市面上的SBC主要分为两大类:一类是...
日期:05-29
流浪地球这部科幻电影在引发宇宙级乡愁「科幻迷狂喜 《流浪地球》将推衍生动画短片剧集」
电影《流浪地球2》于今年1月22日在内地上映,目前该片都豆瓣评分8.3分,累计票房达到39.47亿元,距离40亿目标很近了。opporeno5升级coloros12.1据电影流浪地球”官微消息,导演郭帆...
日期:03-04
马斯克回应“X(推特)退出欧洲”传闻:完全是个假消息_马斯克推特shib
IT之家 10 月 20 日消息,前不久外媒 Business Insider 报道称马斯克考虑将 X(原推特)平台从欧洲撤出的消息,随后被 X 平台账号 X News Daily 引述并表示,“由于该媒体报道记录不...
日期:10-20
专访新华三敖襄桥:拥抱AIGC,推动SD-WAN走向自智
通信世界网消息(CWW)随着企业对更灵活、安全和高效的网络连接需求不断增加,SD-WAN正逐渐成为企业网络构架中的重要组成部分。在行业需求的不断刺激下,SD-WAN逐渐朝着智能化、安...
日期:12-13
微信神秘更新 网友发现全新功能:周杰伦VIP音乐免费听_微信8.0周杰伦视频
快科技4月20日消息,腾讯微信今天同时更新了安卓版及iOS版,但是腾讯对更新内容保持神秘,都只轻飘飘说了一句修复了一些已知问题”。日本发展燃料电池电动汽车的项目是网友实测体...
日期:04-21
美团2022年Q3财报:营收626亿元 同比扭亏为盈_美团盈利状况2021
凤凰网科技讯 11月25日消息,美团(股票代码:3690.HK)发布2022年第三季度业绩,公司营收达626亿元,较去年同比增长28.2%;净利润12.2亿元,上年同期亏损99.9亿元,同比扭亏为盈;调整后净...
日期:11-29
全铝车身+四轮独立悬挂!奇瑞新款小蚂蚁发布:续航最高408km「奇瑞小蚂蚁全铝车身吗」
2月7日,奇瑞今日公布了奇瑞小蚂蚁2023款官图,新车将于2月10日上市,提供251km、301km、408km三种续航选择。外观设计方面,与现款车型没有太大变化,但在细节上做出变动升级,车辆车身...
日期:02-08
618热水器怎么选?华帝分人浴热水器ZC3i,畅享健康沐浴新生活_华帝 热水器 怎么样
随着消费品质化升级,人们对家电产品的要求不再只是基础的功能实现,而是希望拥有更高品质的生活环境。以家庭使用频率非常高的热水器为例,除了要拥有稳定的水温、健康的水质以及...
日期:06-12
英伟达第一财季营收260.44亿美元超预期:净利润同比大增628%_英伟达第一季度财报
快科技5月23日消息,今天凌晨,英伟达公布了2025财年第一财季财报(英伟达财年与自然年不同步,2024年1月30日至2025年1月29日为2025财年)。报告显示,英伟达第一财季营收为260.44亿美...
日期:05-23
阿里云:微博已接入通义大模型 应用于AI评论、AI明星陪聊等
快科技5月17日消息,根据阿里云”官方消息,微博已成功将大模型技术融入其业务中,包括AI评论、AI明星陪聊、虚拟角色帐号、星座大模型以及信息流广告创意生成等多个方面,且已初显...
日期:05-17
联想平板电脑a1073「联想平板电脑a1」
随着智能移动设备市场的不断扩大,越来越多的人开始选择使用平板电脑来满足日常办公和娱乐需求。而在平板电脑领域中,是一款备受关注的产品。下面将从产品信息、性能、优缺点以...
日期:05-29
《斗破苍穹:三年之约》官方手游上线:纯正原著内容_斗破苍穹三年之约2021
快科技4月2日消息,斗破苍穹动画官方授权放置RPG手游《斗破苍穹:三年之约》,今天全平台正式首发上线。官方介绍称,不同于其他IP改编游戏以第一主角去体验游戏的设定,在《斗破苍穹:...
日期:04-03
Groupon Q1营收增1,475% 超谷歌初创期增速(谷歌2020一季度营收)
6月12日消息,据国外媒体报道,美国团购网站Groupon第一季度营收6.45亿美元,同比增长1,475%,远远超过了谷歌、亚马逊和eBay等传奇式增长的知名互联网公司创建头两年的增长水平。...
日期:07-30
市场过度集中或带来风险 AI成美股“万能药”
北京时间5月29日早间消息,据报道,在美国股市的历史上,每一次由科技股推动的大涨都会因为基础不牢固而受到嘲讽。近期,投资者对人工智能的狂热正在独力支撑市场,而厌恶人工智能的...
日期:09-26
消息称马斯克已飞往北京_消息称马斯克已飞往北京了
  知情人士今日称,特斯拉CEO埃隆·马斯克已于周日乘飞机前往北京,再次开启访问中国之旅。  知情人士表示,马斯克正寻求讨论在中国推出全自动驾驶(FSD)软件事宜。彩钢瓦围挡多...
日期:04-28
9月安卓旗舰机性能榜出炉:天玑9000+以一胜九 打败所有骁龙处理器_天玑1000对比骁龙845
这是属于联发科的高光时刻。10月1日,安兔兔发布9月安卓手机性能榜,天玑9000+以一胜九,打败了所有骁龙处理器。榜单显示,ROG6联合联发科调校出来的天玑9000+一举胜过了9款骁龙8+...
日期:10-03
釜山国际广告节_一点资讯亮相2019釜山广告节,深入探讨数字营销新动能
  人工智能与广告营销的进一步结合,让AI+营销脱离了概念、图景阶段,实现了真正的落地和行业革新。   AI如何在营销场景中落地?又为广告行业带来了哪些新机会?在8月23日举...
日期:06-22
美国司法部指控苹果招聘歧视 苹果支付2500万美元赔偿_美国苹果公司招聘条件
11月10日 消息:据国外媒体报道,苹果公司同意支付高达2500万美元的赔偿金,并结清了有关其存在的被处罚的指控。其中1825万美元将用于为同胞的受害者设立欠款基金,其余675万美元...
日期:11-10