您的位置:首页 > 互联网

星标破10万,Auto-GPT之后,Transformer越新里程碑「星标标志」

发布时间:2023-05-18 17:06:54  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,,授权转载发布。

Transformer引爆机器学习圈

问世6年来,Transformer不仅成为NLP领域的主流模型,甚至成功向其他领域跨界,一度成为风靡AI界的机器学习架构。恰在今天,Transformer在GitHub上星标破10万大关!

2017年,谷歌团队在论文「Attention Is All You Need」提出了开创性的NLP架构Transformer,自此一路开挂。

多年来,这一架构风靡微软、谷歌、Meta等大型科技公司。就连横扫世界的ChatGPT,也是基于Transformer开发的。

而就在今天,Transformer在GitHub上星标破10万大关!

星标标志

Hugging Face,最初只是一个聊天机器人程序,因其作为Transformer模型的中心而声名鹊起,一举成为闻名世界的开源社区。

为了庆祝这一里程碑,Hugging Face也总结了100个基于Transformer架构搭建的项目。

星标标志

Transformer引爆机器学习圈

2017年6月,谷歌发布「Attention Is All You Need」论文时,或许谁也没有想到这个深度学习架构Transformer能够带来多少惊喜。

从诞生至今,Transformer已经成为AI领域的基石王者。19年,谷歌还专门为其申请了专利。

星标有什么用

随着Transformer在NLP领域占据了主流地位,还开始了向其他领域的跨界,越来越多的工作也开始尝试将其引到CV领域。

看到Transformer突破这一里程碑,许多网友甚是激动。

星标版是什么意思?

「我一直是许多受欢迎的开源项目的贡献者,但看到Transformer在GitHub上达到10万颗星,还是很特别的!」

星标有什么不同

前段时间Auto-GPT的GitHub星量超过了pytorch引起了很大的轰动。

网友不禁好奇Auto-GPT和Transformer相比呢?

星标plus

其实,Auto-GPT远远超过了Transformer,已经有13万星。

星标汽车售车怎么样?

目前,Tensorflow有17多万星。可见,Transformer是继这两个项目之后,第三个星标破10万的机器学习库。

星标有什么用

还有网友回忆起了最初使用Transformers库时,那时的名字叫「pytorch-pretrained-BERT」。

星标标志

ros智能机器人

基于Transformer的50个超赞项目

Transformers不仅是一个使用预训练模型的工具包,它还是一个围绕Transformers和Hugging Face Hub构建的项目社区。

星标系列

在下面列表中,Hugging Face总结了100个基于Transformer搭建的让人惊叹的新颖项目。

星标是啥

以下,我们节选了前50个个项目进行介绍:

gpt4all

gpt4all是一个开源聊天机器人生态系统。它是在大量干净的助手数据集合上训练出来的,包括代码、故事和对话。它提供开源的大型语言模型,如LLaMA和GPT-J,以助理的方式进行训练。

关键词: 开源,LLaMa,GPT-J,指令,助手

星标有什么用

recommenders

这个存储库包含构建推荐系统的示例和最佳实践,以Jupiter笔记本形式提供。它涵盖了建立有效推荐系统所需的几个方面: 数据准备、建模、评估、模型选择和优化,以及操作化。

关键词:推荐系统,AzureML

lama-cleaner

基于Stable Diffusion技术的图像修复工具。可以从图片中擦出任何你不想要的物体、缺陷、甚至是人,并替换图片上的任何东西。

关键词:修补,SD,Stable Diffusion

星标系列

flair

FLAIR是一个强大的PyTorch自然语言处理框架,可以转换几个重要的任务:NER、情感分析、词性标注、文本和对偶嵌入等。

关键词:NLP,文本嵌入,文档嵌入,生物医学,NER,PoS,情感分析

星标版是什么意思?

mindsdb

MindsDB是一个低代码的机器学习平台。它将几个ML框架作为「AI表」自动集成到数据栈中,以简化AI在应用程序中的集成,让所有技能水平的开发人员都能使用。

关键词:数据库,低代码,AI表

langchain

Langchain旨在协助开发兼容 LLM 和其他知识来源的应用程序。该库允许对应用程序进行链式调用,在许多工具中创建一个序列。

关键词:LLM,大型语言模型,智能体,链

星标plus

ParlAI

ParlAI是一个用于分享、训练和测试对话模型的python框架,从开放领域的聊天,到面向任务的对话,再到可视化问题回答。它在同一个API下提供了100多个数据集,许多预训练模型,一组智能体,并有几个集成。

关键词:对话,聊天机器人,VQA,数据集,智能体

星标版是什么意思?

sentence-transformers

这个框架提供了一种简单的方法来计算句子、段落和图像的密集向量表示。这些模型基于BERT/RoBERTa/XLM-RoBERTa等Transformer为基础的网络,并在各种任务中取得SOTA。文本嵌入到向量空间中,这样类似的文本就很接近,可以通过余弦相似度高效找到。

关键词:密集向量表示,文本嵌入,句子嵌入

ludwig

Ludwig是一个声明式的机器学习框架,使用一个简单而灵活的数据驱动的配置系统,可以轻松定义机器学习pipelines。Ludwig针对的是各类AI任,提供了一个数据驱动的配置系统,训练、预测和评估脚本,以及一个编程的API。

关键字:声明式,数据驱动,ML 框架

星标是啥

InvokeAI

InvokeAI是Stable Diffusion模型的一个引擎,面向专业人士、艺术家和爱好者。它通过CLI以及WebUI来利用最新的AI驱动技术。

关键词:Stable Diffusion,WebUI,CLI

星标是啥

PaddleNLP

PaddleNLP是一个易于使用且功能强大的NLP库,特别是针对中文语言。它支持多个预训练的模型动物园,并支持从研究到工业应用的广泛的NLP任务。

关键词:自然语言处理,汉语,研究,工业

stanza

斯坦福大学NLP小组的官方Python NLP库。它支持在60多种语言上运行各种精确的自然语言处理工具,并支持从Python访问Java Stanford CoreNLP软件。

关键词:NLP,多语言,CoreNLP

星标plus

DeepPavlov

DeepPavlov是一个开源的对话式人工智能库。它被设计用于开发可生产的聊天机器人,和复杂的对话系统,以及在NLP领域的研究,特别是对话系统。

关键词:对话,聊天机器人

星标是干嘛的

alpaca-lora

Alpaca-lora包含了使用低秩适应(LoRA)重现斯坦福大学Alpaca结果的代码。该资源库提供训练(微调)以及生成脚本。

关键词:LoRA,参数高效微调

imagen-pytorch

一个Imagen的开源实现,谷歌的封闭源文本到图像的神经网络击败了DALL-E2。imagen-pytorch是用于文本到图像合成的新SOTA。

关键词:Imagen,文生图

当贝x3投影仪致命缺点

星标是干嘛的

adapter-transformers

adapter-transformers是Transformers 库的一个扩展,通过纳入AdapterHub,将适配器集成到最先进的语言模型中,AdapterHub是一个预训练的适配器模块的中央存储库。它是Transformers的直接替代品,定期更新以保持与Transformers发展同步。

关键字:适配器,LoRA,参数高效微调,Hub

星标系列

NeMo

NVIDIA NeMo是为从事自动语音识别(ASR)、文本-语音合成(TTS)、大语言模型和自然语言处理的研究人员构建的会话AI工具包。NeMo的主要目标是帮助来自工业界和学术界的研究人员重新利用以前的工作(代码和预先训练的模型),并使其更容易创建新的项目。

关键词:对话,ASR,TTS,LLM,NLP

星标标志

上海郊区种菜土地怎么租

Runhouse

Runhouse允许用Python将代码和数据发送到任何计算机或数据下层,并继续从现有代码和环境正常地与它们进行交互。Runhouse开发者提到:

可以将它看作 Python 解释器的扩展包,它可以绕道远程机器或操作远程数据。

关键词: MLOps,基础设施,数据存储,建模

MONAI

MONAI是PyTorch生态系统的一部分,是一个基于PyTorch的开源框架,用于医疗成像领域的深度学习。它的目标是:

- 发展一个学术、工业和临床研究人员的共同基础上的合作社区;

- 为医疗成像创建SOTA、端到端训练的工作流程;

- 为深度学习模型的建立和评价提供了优化和标准化的方法。

关键词:医疗成像,训练,评估

simpletransformers

Simple Transformers让您快速训练和评估Transformer模型。初始化、训练和评估模型只需要3行代码。它支持各种各样的 NLP 任务。

关键词:框架,简单性,NLP

JARVIS

JARVIS是一个将GPT-4等在内的LLM与开源机器学习社区其他模型合并的系统,利用多达60个下游模型来执行 LLM 确定的任务。

关键词:LLM,智能体,HF Hub

星标汽车售车怎么样?

transformers.js

transformers.js是一个JavaScript库,目标是直接在浏览器中从transformers运行模型。

关键词:Transformers,JavaScript,浏览器

星标版是什么意思?

bumblebee

Bumblebee在Axon之上提供了预训练的神经网络模型,Axon是用于Elixir语言的神经网络库。它包括与模型的集成,允许任何人下载和执行机器学习任务,只需要几行代码。

关键词:Elixir,Axon

星标是干嘛的

argilla

Argilla是一个提供高级NLP标签、监控和工作区的开源平台。它与许多开源生态系统兼容,例如Hugging Face、Stanza、FLAIR等。

关键词:NLP,标签,监控,工作区

星标标志

haystack

Haystack是一个开源的NLP框架,可以使用Transformer模型和LLM与数据进行交互。它为快速构建复杂的决策制定、问题回答、语义搜索、文本生成应用程序等提供了可用于生产的工具。

关键词:NLP,Framework,LLM

星标有什么用

spaCy

SpaCy是一个用于Python和Cython中高级自然语言处理的库。它建立在最新的研究基础之上,从一开始就被设计用于实际产品。它通过其第三方软件包spacy-transformers为Transformers模型提供支持。

关键词:NLP,架构

星标有什么不同

speechbrain

SpeechBrain是一个基于PyTorch的开源、一体化的会话AI工具包。我们的目标是创建一个单一的、灵活的、用户友好的工具包,可以用来轻松开发最先进的语音技术,包括语音识别、讲话者识别、语音增强、语音分离、语言识别、多麦克风信号处理等系统。

关键词:对话,演讲

skorch

Skorch是一个包装PyTorch的具有scikit-learn兼容性的神经网络库。它支持Transformers中的模型,以及来自标记器的标记器。

关键词:Scikit-Learning,PyTorch

bertviz

BertViz是一个交互式工具,用于在诸如BERT、GPT2或T5之类的Transformer语言模型中可视化注意力。它可以通过支持大多数Huggingface模型的简单Python API在Jupiter或Colab笔记本中运行。

关键词:可视化,Transformers

星标版是什么意思?

mesh-transformer-jax

mesh-transformer-jax是一个俳句库,使用JAX中的xmap/pjit运算符实现Transformers模型并行性。

这个库被设计为在TPUv3上可扩展到大约40B的参数。它是用来训练GPT-J模型的库。

关键词:俳句,模型并行,LLM,TPUdeepchem

OpenNRE

一种用于神经关系提取的开源软件包(NRE)。它的目标用户范围很广,从新手、到开发人员、研究人员或学生。

关键词:神经关系抽取,框架

pycorrector

一种中文文本纠错工具。该方法利用语言模型检测错误、拼音特征和形状特征来纠正汉语文本错误。可用于汉语拼音和笔画输入法。

关键词: 中文,纠错工具,语言模型,Pinyin

星标是什么东西

nlpaug

这个python库可以帮助你为机器学习项目增强nlp。它是一个轻量级的库,具有生成合成数据以提高模型性能的功能,支持音频和文本,并与几个生态系统(scikit-learn、pytorch、tensorflow)兼容。

关键词:数据增强,合成数据生成,音频,自然语言处理

dream-textures

dream-textures是一个旨在为Blender带来稳定扩散支持的库。它支持多种用例,例如图像生成、纹理投影、内画/外画、 ControlNet和升级。

关键词: Stable-Diffusion,Blender

星标是干嘛的

seldon-core

Seldon core将你的ML 模型(Tensorflow、 Pytorch、 H2o等)或语言包装器(Python、 Java等)转换为生产 REST/GRPC微服务。Seldon可以处理扩展到数以千计的生产机器学习模型,并提供先进的机器学习功能,包括高级指标、请求日志、解释器、离群值检测器、A/B测试、Canaries等。

关键词:微服务,建模,语言包装

open_model_zoo

该库包括优化的深度学习模型和一组演示,以加快高性能深度学习推理应用程序的开发。使用这些免费的预训练模型,而不是训练自己的模型来加速开发和生产部署过程。

关键词:优化模型,演示

ml-stable-diffusion

ML-Stable-Diffusion是苹果在苹果芯片设备上为Core ML带来Stable Diffusion支持的一个仓库。它支持托管在Hugging Face Hub上的稳定扩散检查点。

关键词:Stable Diffusion,苹果芯片,Core ML

星标plus

stable-dreamfusion

Stable-Dreamfusion是文本到3D模型Dreamfusion的pytorch实现,由Stable Diffusion文本到2D模型提供动力。

关键词:文本到3D,Stable Diffusion

星标是干嘛的

txtai

Txtai是一个开源平台,支持语义搜索和语言模型驱动的工作流。Txtai构建了嵌入式数据库,它是向量索引和关系数据库的结合,支持SQL近邻搜索。语义工作流将语言模型连接到统一的应用程序中。

关键词:语义搜索,LLM

星标版是什么意思?

djl

Deep Java Library (DJL)是一个用于深度学习的开源、高级、引擎无关的Java框架,易于开发人员使用。DJL像其他常规Java库一样提供了本地Java开发经验和函数。DJL为HuggingFace Tokenizer提供了Java绑定,并为HuggingFace模型在Java中部署提供了简单的转换工具包。

关键词:Java,架构

星标有什么用

lm-evaluation-harness

该项目提供了一个统一的框架,以测试生成语言模型在大量不同的评估任务。它支持200多项任务,并支持不同的生态系统:HF Transformers,GPT-NeoX,DeepSpeed,以及OpenAIAPI。

关键词:LLM,评估,少样本

gpt-neox

这个资源库记录了EleutherAI用于在GPU上训练大规模语言模型的库。该框架以英伟达的Megatron语言模型为基础,并以DeepSpeed的技术和一些新的优化来增强。它的重点是训练数十亿参数的模型。

关键词:训练,LLM,Megatron,DeepSpeed

muzic

Muzic是一个关于人工智能音乐的研究项目,它能够通过深度学习和人工智能来理解和生成音乐。Muzic是由微软亚洲研究院的研究人员创建的。

格力和美国的十年之争

关键词:音乐理解,音乐生成

星标是什么东西

dalle-flow

DALL · E Flow是一个交互式工作流程,用于从文本提示符生成高清图像。它利用DALL · E-Mega、GLID-3XL和Stable Diffusion生成候选图像,然后调用CLIP-as-service对候选图像进行提示排序。首选的候选者被馈送到GLID-3XL进行扩散,这通常会丰富纹理和背景。最后,通过SwinIR将候选项扩展到1024x1024。

关键词:高清度图像生成,Stable Diffusion,DALL-E Mega,GLID-3XL,CLIP,SwinIR

星标有什么不同

lightseq

LightSeq是在CUDA中实现的用于序列处理和生成的高性能训练和推理库。它能够高效地计算现代NLP和CV模型,如BERT,GPT,Transformer等。因此,它对于机器翻译、文本生成、图像分类和其他与序列相关的任务非常有用。

关键词:训练,推理,序列处理,序列生成

星标是干嘛的

LaTeX-OCR

该项目的目标是创建一个基于学习的系统,该系统采用数学公式的图像,并返回相应的LaTeX代码。

关键词:OCR,LaTeX,数学公式

星标有什么用

open_clip

OpenCLIP是OpenAI的CLIP的开源实现。

这个资源库的目标是使具有对比性的图像-文本监督的训练模型成为可能,并研究它们的属性,如对分布转移的鲁棒性。项目的出发点是CLIP的实现,当在相同的数据集上训练时,与原始CLIP模型的准确性相匹配。

具体来说,一个以OpenAI的1500万图像子集YFCC为代码基础训练的ResNet-50模型在ImageNet上达到32.7%的最高准确率。

关键词:CLIP,开源,对比,图像文本

星标是啥

dalle-playground

一个playground生成图像从任何文本提示使用Stable Diffusion和Dall-E mini。

关键词:WebUI,Stable Diffusion,Dall-E mini

星标版是什么意思?

FedML

FedML是一个联邦学习和分析库,能够在任何地方、任何规模的分散数据上进行安全和协作的机器学习。

关键词:联邦学习,分析,协作机器学习,分散‍

参考资料

https://twitter.com/huggingface/status/1658846950958018560


返回网站首页

本文评论
Facebook巴西用户量超谷歌旗下社交网站Orkut_facebook全球用户
  9月15日早间消息,根据市场研究公司Ibope Nielsen Online的最新数据,Facebook今年8月的巴西独立用户访问量首次超过谷歌旗下社交网站Orkut。   Ibope Nielsen Online的...
日期:07-23
B站将转为双重主要上市 10月3日正式生效_b站上市计划获批准
凤凰网科技讯 9月29日消息,港交所官网显示,B站在香港联交所由第二上市转为主要上市,将于10月3日正式生效。届时,B站将成为中国TMT(科技、媒体、通信)企业中首家完成自愿由在港二次...
日期:09-29
云计算市场AI能力排行榜:百度智能云第一,超阿里腾讯华为(云计算领域的)
  百度智能云的AI能力在中国市场遥遥领先。11月28日,美国调研机构 IDC发布的《IDC MarketScape:2019中国AI云服务市场厂商评估》报告显示,百度智能云凭借着在AI技术、市场和...
日期:12-07
《王者荣耀》七周年庆新活动上线:今日登陆免费送史诗级皮肤「王者荣耀7周年活动」
最近几天,《王者荣耀》手游迎来了7周岁的生日,官方也举办了一场七周年庆活动,给玩家们带来了丰富的福利。根据官微消息,《王者荣耀》游戏内今天正式开启两场新活动:【很高兴遇见...
日期:10-29
收购靴子落地!斥资最高4.86亿元亿收购Samton,新纽科技或迎来全方位升级
  8月15日,国内领先的金融IT方案解决提供商新纽科技(09600.HK)发布公告,将以最高4.86亿元的价格收购Samton (Cayman) Holdings Limited(下称“Samton”)100%股权,Samton的境...
日期:09-11
iPhone14 Plus被指年度最不保值的手机 直降1000元_iphone13一年贬值多少
中关村在线消息:iPhone14 Plus在10月7日正式发售。根据多渠道价格汇总,该机型一经上市价格立刻破发。和官网售价相比,iPhone14 Plus 128GB版本市场价格要便宜400元左右,512GB版...
日期:10-10
一公司违法售卖QQ靓号、群号 被法院判赔150万元_买卖qq号群
4月24日 消息:近日,广东自由贸易区南沙片区人民法院审结一宗涉QQ账号交易不正当竞争纠纷案,判决出售QQ号的公司及个人赔偿150万元。腾讯公司为进行QQ号管理和保护用户个人信息...
日期:04-24
女子入职58天迟到21次不满被辞要仲裁:还要求公司赔偿一个半月工资
4月19日消息,据白鹿视频报道,广东广州一名女子因多次迟到被辞退,不满公司补偿申请劳动仲裁。rtx 4080ti显卡正式发布ipad pro 9.8寸华硕nexus7平板据公司领导卢先生讲述,女子面...
日期:04-20
微星b550主板支持的cpu型号「微星首批AMD B650主板售价曝光 AM5中端新选199美元起」
由于高昂的首发定价和仅支持新一代 DDR5 内存,AMD 锐龙 7000 系列台式处理器和 X670 / X670E 芯片组主板也劝退了不少铁杆粉丝。不过熟悉近些年 DIY 市场规律的消费者,显然更...
日期:10-03
《狂飙》在短视频“狂飙”_播放飙速动画短视频
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:潮关,授权转载发布。2023开年,《狂飙》就上演了一出“高开飙走”大戏。这部以扫黑除恶为主题的主旋律电视剧,在春节档激烈...
日期:02-09
美国为了打压中国芯片业竟然禁止卖金刚石 这太荒唐了
运营商财经 康钊/文阿里云数字化平台建设网络零售电商企业盈利模式分析讯飞双屏翻译机评测2021全球创新企业100强名单OPPO aiTCL X10近日,美国相关部门宣布对中国禁止出售四...
日期:08-16
马斯克:苹果已完全恢复推特广告,感谢各位广告主回归「马斯克推特提醒」
  讯 北京时间12月4日上午消息,据报道,推特(Twitter)CEO埃隆·马斯克(Elon Musk)今日证实,苹果公司已在推特上“完全恢复了广告”。随后,马斯克在推特发文称感谢广告商们重返推特...
日期:12-12
能跑100km!一文看懂小牛G400电动车:35L座桶堪比20寸行李箱_小牛400cc
快科技5月12日消息,在日前举行的春夏新品发布会上,小牛电动推出三款全新车型,其中就包括号称史上最能装”小牛G400电动车,新车将于5月25日上午10:00开启预定。作为新车一大亮点,...
日期:05-13
谁是狼人升级自查自纠系统,有效防范赌博等违规行为
  凭借着互联互通的信息一体化,像谁是狼人这样的热门社交软件,成为人们在了解外部世界、与社会中的其他人产生连接的重要途径。而从相关统计数据来看,交友软件的用户量不断...
日期:06-15
美国人预期寿命降至25年来最低:三大因素导致一半的死亡
据美国疾控中心(CDC)的最新数据显示,2021年,美国人的预期寿命再次下降到76.4岁,相比2020年低了0.6岁,也是自1996年以来的最低水平。其中,美国男性预期寿命从上一年的74.2岁下降到...
日期:12-24
海信家电海外市场_中国品牌海外影响力揭晓,海信成为中国出海“最强”家电品牌
  随着中国科技转化能力的不断提升,越来越多的中国品牌走向国际舞台,并在竞争中持续提升自身在国际经济市场上的地位和影响力。在5月10日公布的全球知名品牌排行榜《BrandZ...
日期:09-11
徕卡旗舰发布100天后,小米有没有高端?「徕卡旗舰发布100天后,小米有没有高端机型」
小米发布了第三季度财报,这个财报季是 7、8、9 三个月,正好是小米 12S Ultra 发布三个月,也是小米抱起徕卡冲高端的 100 天,那么我们来看看小米现在有多高端。三星s21u安卓12总...
日期:12-04
国家邮政局:2020年全国快递业务量已超500亿件_国家邮政局发布的2017中国快递领域
9月10日消息,据国家邮政局邮政业安全监管信息系统实时监测数据显示,2020年我国第500亿件快件诞生。仅用时8个多月就完成500亿件快递业务量,不仅显现了我国快递发展的蓬勃活力,也...
日期:08-01
每天少睡两钟头,生命就会多俩钟头「每天少睡一两个小时算熬夜?专家提醒:大脑会变笨」
人们总说熬夜伤身,但是有时候有突如其来的工作或工作,熬夜在所难免,那么比平常少睡一两个小时算熬夜吗?据央视网科普,长期的慢性睡眠不足,比急性的通宵熬夜更严重。专家表示,连续两...
日期:03-09
订单破5万!比亚迪腾势D9登35万以上新能源豪华MPV销量第一
日前,腾势汽车公布腾势D9 1月份销量:6439台,环比增长7.3%,登上35万以上新能源豪华MPV销量第一宝座。轻一点薄一点2万毫安充电宝推荐比亚迪表示,腾势D9继续夯实中国豪华MPV价值新...
日期:02-02