您的位置:首页 > 互联网

phi-3安装指南:如何在 MacBook Pro 上微调 phi-3

发布时间:2024-04-25 13:06:47  来源:互联网     背景:

4月25日 消息:博主Abhishek Thakur在博客中向大家展示了如何在 MacBook Pro 上训练/微调 Microsoft 的最新 phi-3模型!用户需要使用 M1或 M2mac 来执行此操作。之后将使用 AutoTrain Advanced来微调 phi-3。

要安装 AutoTrain Advanced,您可以执行以下操作:

$pipinstallautotrain-advanced

注意:autotrain不安装pytorch、torchvision等,所以需要自己安装。您可以创建 conda 环境并安装这些依赖项:

$condacreate-nautotrainpython=3.10

完成后,您可以在 Mac 计算机上使用 AutoTrain CLI 或 UI!我们将看看两者!

AutoTrain 不仅提供 LLM 微调,还提供许多其他任务,例如文本分类、图像分类、dreambooth lora 等。但在这篇博文中,我们正在研究 LLM 微调。

您可以通过执行以下操作来查看可以调整 llm 微调的所有参数

$autotrainllm--help

下一步是抓取数据。在这篇博客中,我将向您展示如何在 MacBook 上通过 SFT 训练和 ORPO 调整(DPO 的大而小的兄弟)进行训练。

  • 对于 SFT 训练,我们需要一个具有单个文本列的数据集。我们可以使用timdettmers/openassistant-guanaco或 alpaca 之类的数据集。注意:这些数据集已经格式化为带有系统提示、用户指令和辅助消息的文本。如果它们的格式如下:

[{"content":"Definition:Inthistask,youneedtocountthenumberofvowels(letters'a','e','i','o','u')/consonants(alllettersotherthanvowels)inthegivensentence.\nInput:Sentence:'abaseballplayerisinhishittingstanceasafewpeoplewatch'.Countthenumberofconsonantsinthegivensentence.\nOutput:","role":"user"},{"content":"32","role":"assistant"}]

手机拍照超越相机

您可以使用 AutoTrain 的 chat-template 参数。我们将在本文后面看到它,但用于 ORPO 培训。因此,我们将介绍使用预格式化数据集进行 SFT 训练,并使用聊天模板进行 ORPO 训练。

  • 对于 ORPO 训练,您可以使用argilla/distilabel-capybara-dpo-7k-binarized等数据集。该数据集有很多列,但我们只对chosen&列感兴趣rejected。

使用 AutoTrain,仅创建或查找数据集将是最耗时的部分。现在,当我们拥有数据集时,我们可以使用以下方法进行 SFT 训练:

autotrainllm\

其中 $HF_TOKEN 是您的拥抱面部写入令牌,以防您希望将经过训练的模型推送到拥抱面部中心以方便部署和共享。您可以在这里找到您的代币。

请注意,我们使用的是 lora,这就是我们有--peft参数的原因。另外,如果text您的数据集中未调用文本列,您可以添加另一个参数--text-column your_datasets_text_column。如果您想使用自己的 CSV/JSON 文件而不是拥抱面部中心数据集,您可以将其命名为 train.csv / train.jsonl 并将其放置在本地文件夹中。训练命令将略有变化:

shopee平台有哪些大促活动

autotrainllm\

接下来,我们来进行orpo培训。对于 orpo 训练,我们更改--trainer sft为--trainer orpo.

autotrainllm\

以上有4处变化。只有列映射发生了变化,训练器,当然还有数据集。另一项主要变化是--chat-template设置为 的参数的使用chatml。对于--chat-template,选项有:zephyr、chatml或tokenizer无。如果您已经像我们在 SFT 训练中那样自行正确格式化了数据,则不会使用任何内容。

现在,如果 CLI 对您来说太难了,您还可以使用 UI!这更容易,并且还允许您上传文件。

红米7.2寸屏叫什么型号

要使用用户界面:

$exportHF_TOKEN=your_huggingface_write_token

然后在浏览器中访问https://127.0.0.1:10000并享受AutoTrain UI!


返回网站首页

本文评论
工信系统防灾减灾应急预案「工业和信息化部:受灾区域公众通信基本恢复正常」
央视新闻记者从工业和信息化部了解到,甘肃临夏州积石山县发生6.2级地震后,工业和信息化部迅速组织甘肃、青海两省通信管理局以及中国电信、中国移动、中国联通、中国铁塔等企...
日期:12-19
日本计划成立国家机构,专门调查生成式 AI 安全及相关方面_日本实行计划生育吗?
IT之家 12 月 24 日消息,据 BNN Breaking 报道,日本日前举行 AI 战略会议,宣布计划成立一个国家机构,专门调查生成式 AI 安全及相关方面。华为麒麟进入关键期日本首相岸田文雄指...
日期:12-25
极客时间设计模式_极客时间锻造企业青睐的“标准IT职业人”
  受疫情影响,使得IT职业教育的市场接受度被动加速,线上化可以有效的解决地域局限,优化资源配置,通过强调运营及服务,使得传统的线上用户感受到“虚拟的”仿若坐在教师中的约...
日期:07-16
B站专栏激励计划1月下线,1月2日起不再更新收益详情数据_b站专栏激励计划规则
2023-12-31 08:48:29 作者:姚立伟 进入移动互联网时代,中国在互联网应用近日,B站向其UP主发布了《专栏激励计划下线公告》。公告称,由于整体业务调整的需要,2024年度的专栏激励...
日期:12-31
Reno9 Pro/Pro+手机售价公布:最贵4399元_oppo reno pro多少钱
OPPO正式发布了OPPO Reno9系列,除了标准版以外,还有着OPPO Reno9Pro和Reno9Pro+ ,售价如下:Reno9Pro16GB+256GB售价3499元,16GB+512GB售价3799元,Reno9Pro+16GB+256GB售价3999元,1...
日期:11-27
比亚迪在欧洲销售情况「已在匈牙利交付首批乘用车 比亚迪建欧洲第一家工厂」
2月23日,比亚迪官方公众号宣布,成功向匈牙利首批车主交付了BYD ATTO3(国内对应车型为元 PLUS)。据官方介绍,此次交付不仅代表着比亚迪在中东欧市场迈出了崭新的一步,更象征着公司...
日期:02-26
让普通人也能享受到卫星通信的“专车服务” 网翎卫星上网机
【】据悉,2024年4月11日,在北京卫星制造厂科技园,网翎作为首家民用卫星互联网终端设备制造商和服务商召开了一场别开生面的媒体交流活动,邀请了门户科技、航天卫星媒体、旅游户...
日期:04-13
nvidia年营收「NVIDIA发布2024财年第一季度财务报告」
2023/5/25 14:30 NVIDIA发布2024财年第一季度财务报告   季度收入为71.9...
日期:06-02
B站粉丝最多的人!罗翔回应连续3年入选百大:愧不敢当_罗翔b站号为什么这么多
日前,B站公布了2022年百大UP主,罗翔说刑法”再次入选。此前罗翔已经连续两届荣获了2020百大UP主、2021百大UP主两大荣誉。对于三连冠”,罗翔老师表示,感恩同学们的鼓励。再次入...
日期:01-15
CSTC发布教育APP隐私报告:VIPKID表现最佳
  近日,中国软件测评中心(CSTC)公布了在线教育APP个人信息安全调研报告。结果显示:大部分在线教育类软件都符合有关国家标准及要求。VIPKID、沪江网校两款APP在个人隐私保...
日期:03-17
远古发现!这是一块5亿多年前的肌肉_远古发现!这是一块5亿多年前的肌肉
本文转自【中国新闻网】;5.35亿年前“五环”状化石揭示已知最早环神经动物肌肉系统京东校园合伙人官网中新社南京10月11日电 (记者 杨颜慈)据中国科学院南京地质古生物研究所...
日期:10-12
九旬老人逗鹦鹉得了鹦鹉热:高烧39℃ 肺部病变
快科技7月13日消息,提醒大家接触鸟类一定要真慎重,一不小心可能会染上鹦鹉热”,严重会引起肺部病变,甚至致命。据报道,近日家住西安的九旬老人王爷爷突然出现发热、咳嗽的症状,最...
日期:07-13
小米澎湃T1信号增强芯片来了:通信性能提升37% 小米14 Ultra首搭两颗_小米澎湃芯片是纯国产吗
快科技2月21日消息,小米14 Ultra将于明日晚7点正式登场,这款旗舰主打影像,是小米史上最好的影像旗舰。小米手机”官微今日介绍,澎湃家族”新成员小米澎湃T1信号增强芯片即将登场...
日期:02-21
5G的爆发与焦虑_5G面临的挑战
  通讯技术的发展日新月异,几乎每10年就是一个时代,而每个时代所迸发出的巨大变革力量,正不断影响着人类的生产和生活方式。   如今,全球已经正式开启了“5G时代”。   ...
日期:10-23
疯狂的数字藏品,下一个造富神话?
“入选《柯林斯词典》2021年度词汇,年使用率增长110000%。”这是2021年NFT的傲人战绩。所谓NFT,是指具有不可分割、不可替代等特性的非同质化代币。本质上,NFT和加密货币区别不...
日期:08-01
特斯拉modelx降价多少「特斯拉国产车型大幅降价 公布Model S、Model X定价」
1月6日消息,据特斯拉官网消息,特斯拉国产车型大幅降价,Model3起售价22.99万元,ModelY起售价25.99万元。此外,特斯拉还公布了全新的ModelS和ModelX售价,分别为78.99万起和87.99万元...
日期:01-06
2023年国际十大科技新闻解读_2023年国际十大科技新闻解读图片
  来源: 科技日报 作者: 张梦然  2023年,科学的地平线上燃起了新的曙光。从活体中的电极,到引力波的“歌声”;从单原子水平的探索,到广袤太空里中国人自己的实验室;从人类对自...
日期:12-29
报告预测:到2026年,公共云市场将达1万亿美元_2020年中国公有云市场
12月15日 消息:IT 研究公司Forrester 的一份新报告估计,由于未来四年的年增长率超过20%,到2026年公共云市场将达到1万亿美元,是目前(2022年)4460亿美元市场的两倍多。报告显示,公...
日期:12-15
美国商务部新规正式发布 “有条件”允许美企与华为合作制定5G标准
  2020年6月18日,美国商务部工业和安全局(BIS) 在《联邦公报》上发布了新的临时最终规则,该规则对《出口管理条例》(EAR)(15 CFR第730-774部分)进行了修正,“实体清单”中由华为...
日期:07-14