您的位置:首页 > 互联网

星标破10万!Auto-GPT之后,Transformer越新里程碑_星标版是什么意思?

发布时间:2023-05-18 20:08:11  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】问世6年来,Transformer不仅成为NLP领域的主流模型,甚至成功向其他领域跨界,一度成为风靡AI界的机器学习架构。恰在今天,Transformer在GitHub上星标破10万大关!

2017年,谷歌团队在论文「Attention Is All You Need」提出了开创性的NLP架构Transformer,自此一路开挂。

多年来,这一架构风靡微软、谷歌、Meta等大型科技公司。就连横扫世界的ChatGPT,也是基于Transformer开发的。

而就在今天,Transformer在GitHub上星标破10万大关!

星标汽车售车怎么样?

Hugging Face,最初只是一个聊天机器人程序,因其作为Transformer模型的中心而声名鹊起,一举成为闻名世界的开源社区。

为了庆祝这一里程碑,Hugging Face也总结了100个基于Transformer架构搭建的项目。

2017年6月,谷歌发布「Attention Is All You Need」论文时,或许谁也没有想到这个深度学习架构Transformer能够带来多少惊喜。

从诞生至今,Transformer已经成为AI领域的基石王者。19年,谷歌还专门为其申请了专利。

星标汽车售车怎么样?

随着Transformer在NLP领域占据了主流地位,还开始了向其他领域的跨界,越来越多的工作也开始尝试将其引到CV领域。

看到Transformer突破这一里程碑,许多网友甚是激动。

星标系列

「我一直是许多受欢迎的开源项目的贡献者,但看到Transformer在GitHub上达到10万颗星,还是很特别的!」

星标汽车售车怎么样?

前段时间Auto-GPT的GitHub星量超过了pytorch引起了很大的轰动。

网友不禁好奇Auto-GPT和Transformer相比呢?

星标系列

其实,Auto-GPT远远超过了Transformer,已经有13万星。

星标系列

目前,Tensorflow有17多万星。可见,Transformer是继这两个项目之后,第三个星标破10万的机器学习库。

星标plus

还有网友回忆起了最初使用Transformers库时,那时的名字叫「pytorch-pretrained-BERT」。

星标有什么不同

苹果造车利好立讯精密

基于Transformer的50个超赞项目

Transformers不仅是一个使用预训练模型的工具包,它还是一个围绕Transformers和Hugging Face Hub构建的项目社区。

星标标志

在下面列表中,Hugging Face总结了100个基于Transformer搭建的让人惊叹的新颖项目。

以下,我们节选了前50个个项目进行介绍:

gpt4all

gpt4all是一个开源聊天机器人生态系统。它是在大量干净的助手数据集合上训练出来的,包括代码、故事和对话。它提供开源的大型语言模型,如LLaMA和GPT-J,以助理的方式进行训练。

关键词: 开源,LLaMa,GPT-J,指令,助手

星标有什么用

recommenders

这个存储库包含构建推荐系统的示例和最佳实践,以Jupiter笔记本形式提供。它涵盖了建立有效推荐系统所需的几个方面: 数据准备、建模、评估、模型选择和优化,以及操作化。

关键词:推荐系统,AzureML

lama-cleaner

基于Stable Diffusion技术的图像修复工具。可以从图片中擦出任何你不想要的物体、缺陷、甚至是人,并替换图片上的任何东西。

关键词:修补,SD,Stable Diffusion

星标有什么用

flair

FLAIR是一个强大的PyTorch自然语言处理框架,可以转换几个重要的任务:NER、情感分析、词性标注、文本和对偶嵌入等。

关键词:NLP,文本嵌入,文档嵌入,生物医学,NER,PoS,情感分析

星标是干嘛的

mindsdb

MindsDB是一个低代码的机器学习平台。它将几个ML框架作为「AI表」自动集成到数据栈中,以简化AI在应用程序中的集成,让所有技能水平的开发人员都能使用。

关键词:数据库,低代码,AI表

langchain

Langchain旨在协助开发兼容 LLM 和其他知识来源的应用程序。该库允许对应用程序进行链式调用,在许多工具中创建一个序列。

关键词:LLM,大型语言模型,智能体,链

星标plus

ParlAI

ParlAI是一个用于分享、训练和测试对话模型的python框架,从开放领域的聊天,到面向任务的对话,再到可视化问题回答。它在同一个API下提供了100多个数据集,许多预训练模型,一组智能体,并有几个集成。

关键词:对话,聊天机器人,VQA,数据集,智能体

星标plus

sentence-transformers

这个框架提供了一种简单的方法来计算句子、段落和图像的密集向量表示。这些模型基于BERT/RoBERTa/XLM-RoBERTa等Transformer为基础的网络,并在各种任务中取得SOTA。文本嵌入到向量空间中,这样类似的文本就很接近,可以通过余弦相似度高效找到。

关键词:密集向量表示,文本嵌入,句子嵌入

ludwig

Ludwig是一个声明式的机器学习框架,使用一个简单而灵活的数据驱动的配置系统,可以轻松定义机器学习pipelines。Ludwig针对的是各类AI任,提供了一个数据驱动的配置系统,训练、预测和评估脚本,以及一个编程的API。

关键字:声明式,数据驱动,ML 框架

InvokeAI

InvokeAI是Stable Diffusion模型的一个引擎,面向专业人士、艺术家和爱好者。它通过CLI以及WebUI来利用最新的AI驱动技术。

关键词:Stable Diffusion,WebUI,CLI

星标有什么功能

PaddleNLP

PaddleNLP是一个易于使用且功能强大的NLP库,特别是针对中文语言。它支持多个预训练的模型动物园,并支持从研究到工业应用的广泛的NLP任务。

关键词:自然语言处理,汉语,研究,工业

stanza

斯坦福大学NLP小组的官方Python NLP库。它支持在60多种语言上运行各种精确的自然语言处理工具,并支持从Python访问Java Stanford CoreNLP软件。

关键词:NLP,多语言,CoreNLP

星标汽车售车怎么样?

DeepPavlov

DeepPavlov是一个开源的对话式人工智能库。它被设计用于开发可生产的聊天机器人,和复杂的对话系统,以及在NLP领域的研究,特别是对话系统。

关键词:对话,聊天机器人

星标版是什么意思?

alpaca-lora

Alpaca-lora包含了使用低秩适应(LoRA)重现斯坦福大学Alpaca结果的代码。该资源库提供训练(微调)以及生成脚本。

关键词:LoRA,参数高效微调

imagen-pytorch

一个Imagen的开源实现,谷歌的封闭源文本到图像的神经网络击败了DALL-E2。imagen-pytorch是用于文本到图像合成的新SOTA。

关键词:Imagen,文生图

星标是啥

adapter-transformers

adapter-transformers是Transformers 库的一个扩展,通过纳入AdapterHub,将适配器集成到最先进的语言模型中,AdapterHub是一个预训练的适配器模块的中央存储库。它是Transformers的直接替代品,定期更新以保持与Transformers发展同步。

双十一怎么抢

关键字:适配器,LoRA,参数高效微调,Hub

星标有什么用

NeMo

NVIDIA NeMo是为从事自动语音识别(ASR)、文本-语音合成(TTS)、大语言模型和自然语言处理的研究人员构建的会话AI工具包。NeMo的主要目标是帮助来自工业界和学术界的研究人员重新利用以前的工作(代码和预先训练的模型),并使其更容易创建新的项目。

关键词:对话,ASR,TTS,LLM,NLP

星标汽车售车怎么样?

Runhouse

Runhouse允许用Python将代码和数据发送到任何计算机或数据下层,并继续从现有代码和环境正常地与它们进行交互。Runhouse开发者提到:

可以将它看作 Python 解释器的扩展包,它可以绕道远程机器或操作远程数据。

关键词: MLOps,基础设施,数据存储,建模

MONAI

MONAI是PyTorch生态系统的一部分,是一个基于PyTorch的开源框架,用于医疗成像领域的深度学习。它的目标是:

- 发展一个学术、工业和临床研究人员的共同基础上的合作社区;

- 为医疗成像创建SOTA、端到端训练的工作流程;

- 为深度学习模型的建立和评价提供了优化和标准化的方法。

关键词:医疗成像,训练,评估

simpletransformers

Simple Transformers让您快速训练和评估Transformer模型。初始化、训练和评估模型只需要3行代码。它支持各种各样的 NLP 任务。

关键词:框架,简单性,NLP

JARVIS

JARVIS是一个将GPT-4等在内的LLM与开源机器学习社区其他模型合并的系统,利用多达60个下游模型来执行 LLM 确定的任务。

关键词:LLM,智能体,HF Hub

星标系列

transformers.js

transformers.js是一个JavaScript库,目标是直接在浏览器中从transformers运行模型。

关键词:Transformers,JavaScript,浏览器

星标plus

bumblebee

Bumblebee在Axon之上提供了预训练的神经网络模型,Axon是用于Elixir语言的神经网络库。它包括与模型的集成,允许任何人下载和执行机器学习任务,只需要几行代码。

关键词:Elixir,Axon

星标是干嘛的

argilla

Argilla是一个提供高级NLP标签、监控和工作区的开源平台。它与许多开源生态系统兼容,例如Hugging Face、Stanza、FLAIR等。

关键词:NLP,标签,监控,工作区

星标有什么不同

haystack

Haystack是一个开源的NLP框架,可以使用Transformer模型和LLM与数据进行交互。它为快速构建复杂的决策制定、问题回答、语义搜索、文本生成应用程序等提供了可用于生产的工具。

关键词:NLP,Framework,LLM

星标标志

spaCy

三星新款旗舰面部识别

SpaCy是一个用于Python和Cython中高级自然语言处理的库。它建立在最新的研究基础之上,从一开始就被设计用于实际产品。它通过其第三方软件包spacy-transformers为Transformers模型提供支持。

关键词:NLP,架构

星标有什么不同

speechbrain

SpeechBrain是一个基于PyTorch的开源、一体化的会话AI工具包。我们的目标是创建一个单一的、灵活的、用户友好的工具包,可以用来轻松开发最先进的语音技术,包括语音识别、讲话者识别、语音增强、语音分离、语言识别、多麦克风信号处理等系统。

关键词:对话,演讲

skorch

Skorch是一个包装PyTorch的具有scikit-learn兼容性的神经网络库。它支持Transformers中的模型,以及来自标记器的标记器。

关键词:Scikit-Learning,PyTorch

bertviz

BertViz是一个交互式工具,用于在诸如BERT、GPT2或T5之类的Transformer语言模型中可视化注意力。它可以通过支持大多数Huggingface模型的简单Python API在Jupiter或Colab笔记本中运行。

关键词:可视化,Transformers

星标版是什么意思?

mesh-transformer-jax

mesh-transformer-jax是一个俳句库,使用JAX中的xmap/pjit运算符实现Transformers模型并行性。

这个库被设计为在TPUv3上可扩展到大约40B的参数。它是用来训练GPT-J模型的库。

关键词:俳句,模型并行,LLM,TPUdeepchem

OpenNRE

一种用于神经关系提取的开源软件包(NRE)。它的目标用户范围很广,从新手、到开发人员、研究人员或学生。

关键词:神经关系抽取,框架

pycorrector

一种中文文本纠错工具。该方法利用语言模型检测错误、拼音特征和形状特征来纠正汉语文本错误。可用于汉语拼音和笔画输入法。

关键词: 中文,纠错工具,语言模型,Pinyin

星标汽车售车怎么样?

nlpaug

这个python库可以帮助你为机器学习项目增强nlp。它是一个轻量级的库,具有生成合成数据以提高模型性能的功能,支持音频和文本,并与几个生态系统(scikit-learn、pytorch、tensorflow)兼容。

关键词:数据增强,合成数据生成,音频,自然语言处理

dream-textures

dream-textures是一个旨在为Blender带来稳定扩散支持的库。它支持多种用例,例如图像生成、纹理投影、内画/外画、 ControlNet和升级。

关键词: Stable-Diffusion,Blender

星标标志

seldon-core

Seldon core将你的ML 模型(Tensorflow、 Pytorch、 H2o等)或语言包装器(Python、 Java等)转换为生产 REST/GRPC微服务。Seldon可以处理扩展到数以千计的生产机器学习模型,并提供先进的机器学习功能,包括高级指标、请求日志、解释器、离群值检测器、A/B测试、Canaries等。

关键词:微服务,建模,语言包装

open_model_zoo

该库包括优化的深度学习模型和一组演示,以加快高性能深度学习推理应用程序的开发。使用这些免费的预训练模型,而不是训练自己的模型来加速开发和生产部署过程。

关键词:优化模型,演示

ml-stable-diffusion

ML-Stable-Diffusion是苹果在苹果芯片设备上为Core ML带来Stable Diffusion支持的一个仓库。它支持托管在Hugging Face Hub上的稳定扩散检查点。

关键词:Stable Diffusion,苹果芯片,Core ML

星标是啥

stable-dreamfusion

Stable-Dreamfusion是文本到3D模型Dreamfusion的pytorch实现,由Stable Diffusion文本到2D模型提供动力。

关键词:文本到3D,Stable Diffusion

星标有什么用

txtai

Txtai是一个开源平台,支持语义搜索和语言模型驱动的工作流。Txtai构建了嵌入式数据库,它是向量索引和关系数据库的结合,支持SQL近邻搜索。语义工作流将语言模型连接到统一的应用程序中。

关键词:语义搜索,LLM

星标是干嘛的

djl

Deep Java Library (DJL)是一个用于深度学习的开源、高级、引擎无关的Java框架,易于开发人员使用。DJL像其他常规Java库一样提供了本地Java开发经验和函数。DJL为HuggingFace Tokenizer提供了Java绑定,并为HuggingFace模型在Java中部署提供了简单的转换工具包。

关键词:Java,架构

星标标志

lm-evaluation-harness

该项目提供了一个统一的框架,以测试生成语言模型在大量不同的评估任务。它支持200多项任务,并支持不同的生态系统:HF Transformers,GPT-NeoX,DeepSpeed,以及OpenAI API。

关键词:LLM,评估,少样本

gpt-neox

这个资源库记录了EleutherAI用于在GPU上训练大规模语言模型的库。该框架以英伟达的Megatron语言模型为基础,并以DeepSpeed的技术和一些新的优化来增强。它的重点是训练数十亿参数的模型。

关键词:训练,LLM,Megatron,DeepSpeed

muzic

Muzic是一个关于人工智能音乐的研究项目,它能够通过深度学习和人工智能来理解和生成音乐。Muzic是由微软亚洲研究院的研究人员创建的。

关键词:音乐理解,音乐生成

星标有什么不同

dalle-flow

DALL · E Flow是一个交互式工作流程,用于从文本提示符生成高清图像。它利用DALL · E-Mega、GLID-3XL和Stable Diffusion生成候选图像,然后调用CLIP-as-service对候选图像进行提示排序。首选的候选者被馈送到GLID-3XL进行扩散,这通常会丰富纹理和背景。最后,通过SwinIR将候选项扩展到1024x1024。

关键词:高清度图像生成,Stable Diffusion,DALL-E Mega,GLID-3XL,CLIP,SwinIR

星标是啥

lightseq

LightSeq是在CUDA中实现的用于序列处理和生成的高性能训练和推理库。它能够高效地计算现代NLP和CV模型,如BERT,GPT,Transformer等。因此,它对于机器翻译、文本生成、图像分类和其他与序列相关的任务非常有用。

关键词:训练,推理,序列处理,序列生成

星标汽车售车怎么样?

LaTeX-OCR

该项目的目标是创建一个基于学习的系统,该系统采用数学公式的图像,并返回相应的LaTeX代码。

关键词:OCR,LaTeX,数学公式

星标标志

open_clip

OpenCLIP是OpenAI的CLIP的开源实现。

这个资源库的目标是使具有对比性的图像-文本监督的训练模型成为可能,并研究它们的属性,如对分布转移的鲁棒性。项目的出发点是CLIP的实现,当在相同的数据集上训练时,与原始CLIP模型的准确性相匹配。

具体来说,一个以OpenAI的1500万图像子集YFCC为代码基础训练的ResNet-50模型在ImageNet上达到32.7%的最高准确率。

关键词:CLIP,开源,对比,图像文本

星标plus

dalle-playground

一个playground生成图像从任何文本提示使用Stable Diffusion和Dall-E mini。

关键词:WebUI,Stable Diffusion,Dall-E mini

星标汽车售车怎么样?

FedML

FedML是一个联邦学习和分析库,能够在任何地方、任何规模的分散数据上进行安全和协作的机器学习。

关键词:联邦学习,分析,协作机器学习,分散‍

参考资料:

https://twitter.com/huggingface/status/1658846950958018560


返回网站首页

本文评论
firefox 崩溃「一个小改变,让Firefox崩溃次数降低70%」
声明:本文来自于微信公众号 OSC开源社区(ID:oschina2013),授权转载发布。iqoo支持90hz的手机特斯拉model y车友会用户在 Windows 平台上使用 Firefox 时,遇到的最常见的不稳定原...
日期:11-30
雷克萨斯官宣涨价_丰田“加价神车”半年销量暴跌30%!雷克萨斯ES又全面涨价
作为丰田旗下的豪华汽车品牌,雷克萨斯一直的销量都很不错,特别是雷克萨斯ES,可以说是占据了雷克萨斯的半壁江山。即便是被网友疯狂吐槽“同级别动力最弱”,但也丝毫不影响该车的...
日期:08-17
苹果公司财富排名_《财富》网站公布2011年全球最受尊敬的企业50强 苹果继续位居第一
  北京时间3月4消息,《财富》网站今天公布2011年度全球最受尊敬的企业50强,苹果连续四年居第一。   财富在解释苹果为何评为第一时说,在过去四年,苹果都成为《财富》最受尊...
日期:07-26
光猪圈上榜懒熊体育“健身教练最佳发展平台”榜单_光猪圈健身总部
  光猪圈健身登上“2019健身教练最佳发展平台”榜单第8名!   近日,由懒熊体育举办的寻找“2019健身教练最佳发展平台”活动落下帷幕。上榜健身企业不分新老,不分类型,同...
日期:04-15
苹果正在“秘谋”新技术:iPhone有望摆脱运营商_iphone 发展
  据phoneArena报道,苹果公司内部成立了一个12人的秘密团队,正在进行卫星和无线技术的研究,以期在未来实现将数据绕过运营商直接传递给iPhone或iPad等设备。该项目尚处于早...
日期:01-03
什么是开源代码 安全吗_选择开源项目什么最重要?开源许可证远超代码质量、安全性
  开发人员在决定是否使用某个开源项目时考虑到的最重要事项是什么?代码质量?安全性?好的文档?   上述因素都很重要,但根据Tidelift和The New Stack的联合调查,控制着开...
日期:06-24
Google Reader 手机应用开发中截图出现
  Google Reader的PC版正被整个网络骂得狗血淋头,就在这时,更新后的Android版Google Reader手机应用的截图也出现了,新版带来了Ice Cream Sandwich风格的造型,对触控操作也变...
日期:07-24
腾讯黑鲨 3S 正式发布_腾讯黒鲨3s
  7 月 31 日消息 腾讯黑鲨游戏手机 3S 今天下午正式发布,搭载骁龙 865 处理器,搭载 120Hz 三星 AMOLED 屏和 JOYUI 12 游戏操作系统,12+128GB 售价 3999 元,12+256GB 售价 4...
日期:07-14
什么叫服务到位?苏宁红孩子游乐耍一年(苏宁红孩子游乐场)
  3月1日,苏宁红孩子正式推出苏宁SUPER会员游乐专享权益,用户最高花费299元就能享受游乐免费玩一年服务。这个颠覆性地政策一经推出,就在母婴行业掀起了巨大反响,让同行们争...
日期:04-18
任正非发话后 华为5年后会下场造车吗?徐直军回应
今日,华为创始人、董事长任正非署名发出一份公告,再次强调华为不造车”,有效期5年。对此,很多人疑惑,是不是说5年后华为就会造车了?在华为年度报告发布会上,徐直军对此进行了解答:这...
日期:04-01
连自己都不放过!任天堂举报《王国之泪》偷跑消息误伤官号「王国之心switch平台」
快科技5月8日消息,近一段时间,由于《塞尔达传说:王国之泪》的意外偷跑,任天堂开始在各大社交平台举报相关内容。但现在看来,这样大规模的举报也造成了一些误伤”。今天,有用户发现...
日期:05-08
艾媒咨询发布手机输入法专题报告,百度输入法在办公、教育场景体验领跑
  2020年疫情加速了大众的数字化生活进程,输入法作为交互入口,其应用场景也得到了拓展。日前,全球领先的第三方数据分析机构艾媒咨询发布《2020中国第三方手机输入法场景应...
日期:12-12
沃尔玛与供应商之间的电子商务关系_互联网销售商与“网上沃尔玛” 开展竞争
  北京时间2月14日消息,据国外媒体报道,支付和推广平台TrialPay公司首席执行官亚历克斯·兰贝尔(Alex Rampell)在知名科技博客TechCrunch发表名为《再见,长尾》署名文章,举出了...
日期:07-26
特斯拉开始生产Semi电动卡车 首批12月交付「特斯拉Semi电动卡车」
10月8日消息,特斯拉CEO马斯克的最新推文显示,特斯拉已经开始生产Semi电动卡车,并计划于12月1日开始向百事公司交付。192核cpu百事公司周五也证实,将于12月1日开始接收特斯拉的Se...
日期:10-12
美团港股急跌超10% 腾讯回应出售美团股权传闻:不予置评「腾讯美团都是港股吗」
  记者/张洋洋海信与TCL大疆无人机air2与fpv  美团股价午后持续走低,跌幅现扩大至10%。此前有市场消息称,腾讯计划出售美团的全部或大部分股权。对此,腾讯方面回应《科创板...
日期:10-08
快手电商上线优选蟹无忧专场活动 不合格商品随时去掉标签
10月8日 消息:快手电商宣布,近期在大闸蟹季来临之际,上线了优选蟹无忧专场活动,活动商品均打有“蟹无忧”标签,具有该标识的螃蟹或螃蟹兑换卡券。胡厚崑谈5g网络案宣判,原告优酷...
日期:10-09
极光(JG.US)与老虎证券达成合作,解锁智能运营新方式
  近日,中国领先的移动开发者服务提供商极光(Aurora Mobile, 纳斯达克股票代码:JG)与业内知名的美港股券商老虎证券(纳斯达克股票代码:TIGR)达成合作。凭借领先的人工智能...
日期:07-16
拓展灵活!宁畅携旗舰服务器亮相英特尔数据创新峰会
  6月19日,英特尔® 数据创新峰会暨新品发布,以线上直播形式举办。服务器新锐厂商宁畅作为英特尔合作伙伴,受邀并携旗舰机型R620参加本次大会。   峰会期间,宁畅总裁秦晓宁...
日期:07-14
美林十二岁以上如何服用「小红书成人使用美林攻略引争议 医生呼吁:别和孩子枪药」
12月20日 消息:近日,许多网友出现发热等症状后,社交网络上不断传播病情和用药情况。而小红书上却出现了许多帖子宣称“美林是新冠病毒的成人最佳退烧药”,并附上教程,提供如何抢...
日期:12-20
地球中心到底有什么?科学家发现竟是一个超大铁球 跟书里讲得不一样
地球中心到底有什么?地壳、地幔、外核和内核,这是我们从地理教科书上学到的东西。近日,对过去10年中200多次地震所做的一项研究显示,地球内核中还有第五层:一个几乎是纯铁的球体,...
日期:02-25