您的位置:首页 > 互联网

声网对话式AI解决方案上新 构建实时多模态AI交互_声网tony

发布时间:2024-09-09 16:19:58  来源:互联网     背景:

在生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。

今年5月,GPT-4o 的发布开创了AI 实时语音交互的先河。在此之前,一些传统的大模型已经具备语音交互的能力,但一般采用 WebSocket 方案,这一方案虽然应用广泛,但其传输架构是基于 TCP 协议来构建,延迟较高,在 STT-LLM-TTS 的三步骤中,一个来回的延迟就要2-3秒,在弱网等非理想网络环境下,整体语音交互的延时更达到4秒+。在 GPT-4o 采用 RTC 方案后,展现出了自然、流畅的低延时语音交互体验,也让更多企业与开发者看到了在 AI 语音交互中 RTC 方案的更优性,并积极与 RTC 厂商合作,升级 AI 语音交互的体验。

声网对话式AI解决方案构建实时多模态AI语音交互

声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过与客户在 AIGC 场景的深度合作,探索出了一套实时多模态对话式 AI 解决方案,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,通过丰富的功能构建真实、自然的AI语音交互体验。

协鑫 上市

例如对交互延迟进行优化,延迟可做到1s以内;支持AI降噪、背景人声过滤,让语音对话更纯静;支持随时打断与超拟人化人声合成,让对话更智能与逼真;同时还支持灵活可扩展的AI Agent架构等一系列功能,帮助开发者与企业快速构建适配自己业务场景的AI实时语音对话服务。

图:声网实时多模态对话式AI解决方案架构图

1、延迟低于1s,极速响应:声网实时多模态对话式AI解决方案可做到语音对话延迟低于1s。通过在客户端进行低延迟的音频采集和播放、借助声网自研的 SD-RTN™ 实时传输网络实现全球范围的低延时 RTC 传输,并进一步通过更精准低延迟的AI VAD、更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性。

2、智能打断,贴近真实会话:在人类真实的语音对话中,打断对方并提出新的疑问是非常常见的现象,而在 AIGC 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网的方案也支持先进的 AI 语音活动检测(AI VAD)技术,可实现灵敏的自然语音打断,模拟人类对话的自然流动,让对话更加真实、自然。

3、嘈杂环境下也能清晰对话:即使在嘈杂的环境中,声网的解决方案也能保证清晰的语音交流。通过AI噪声抑制、背景人声过滤、音乐检测/过滤等算法,确保人与 AI 的对话不受环境干扰,始终保持顺畅。

4、灵活可扩展的AI Agent架构:AI Agent 作为大模型的应用框架,其重要性不言而喻。对于开发者而言,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。

5、超拟人化人声合成:在一些传统的AI语音对话中,AI角色机械式的声音大大降低了对话的真实感。针对这一痛点,声网的解决方案超可实现超拟人真实音色,合成的声音几乎与真人无异,且支持私人定制音色,模拟喜怒哀乐等多种情绪表达,提升用户体验,使互动更加自然,还原真实体验感。

6、支持RTC与SIP网关互通:AI电话客服是当下 AIGC 应用最广泛的场景之一,具备呼叫中心坐席的特性,对此,声网的解决方案也支持 RTC 与 SIP 网关互通,用户可直接通过声网的RTCSDK 直接呼叫企业客服中心坐席,有效的降低客服成本,提升客服效率。

RTC能力加持下AIGC应用场景迎来爆发

声网 sip

声网在与客户的合作中发现,在RTC 的加持下,AIGC应用场景迎来进一步爆发,AI智能助手、AI情感陪伴、AI口语老师、AI客服的 AI 交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。

来自量子位智库推出的 AI智能助手用户数据报告显示,截止8月国内市场的 AI智能助手 App 已超过64款。在 AI情感陪伴领域也涌现了 Soul、星野、Wow等一系列人气社交APP。

以AI情感陪伴为例,随着多模态交互能力的升级,当下 AI情感陪伴类产品正呈现出三个特征:

捡到苹果手机不知道密码和id怎么办

全新名图上市

1、语音/视觉交互:除了传统的文本交互外,越来越多的 AI情感陪伴类 APP 也在加入语音通话的功能,让 AI陪伴更具有真实感。同时在视觉交互方面,部分产品也支持了视频通话功能,通过3D建模、拟真渲染等技术构建逼真的数字人,让人与 AI 的情感交互更加拟人化。

2、情感计算:人与 AI 的一个核心区别就是人具备情感,为了让 AI 的回答更加智能与真实,许多 AI 陪伴产品开始加入情感计算的能力。通过语义识别、面部表情等信号检测用户的喜怒哀乐等情绪状态,并做出对应的情感回应,实现更加人性化的交互体验。

声网tony

3、私人定制:标准化的人机交互千篇一律,个性化的定制才更有新意。具备个性化定制能力,提供自主创作和个性化选项已经成为 AI陪伴类产品的新趋势,例如定制原生IP角色、定制IP专属画风和语音体系、定制专属互动话题等一系列功能。

声网如何使用

图:电影《Her》里的AI助理被视为AI情感陪伴的启蒙

在AI口语老师场景,声网观察发现,1v1教学场景非常适用 AI口语老师,从真人教学变成自学模式,例如正价课1v1与 Demo 课1v1教学,AI数字人老师将代替真人,1v1AI 口语老师将成为未来语言学习机构必备的应用,AI 数字人老师可能用于大龄学生与成人,卡通 IP 可用于低幼龄的课程。同时在职业教育赛道,已经有不少教育机构在大班课场景利用 AI数字人老师教学。

同时,在游戏社交、AI分身、实时语音翻译等场景,实时AI语音也大有可为。例如,在狼人杀、谁是卧底等场景,AI NPC 角色虽然已经在应用,但是 AI 的痕迹还是较为明显。在大模型具备实时语音交互能力后,谁是卧底中的 AI 角色可以做到快速的推理并发言,再搭配语音仿真技术,有望做到 AI 角色的以假乱真。

声网的实时多模态对话式AI解决方案目前已经上线,如您想进一步体验我们的 Demo或者接入该方案,可在声网公众号找到这篇文章,扫描文章底部的二维码联系我们。


返回网站首页

本文评论
 百度沈抖:推动数字经济要办实事,少吹牛多交付
生成式AI已经形成全球性的“AI再造业务”趋势,企业迎来“智能化跃迁”的历史机遇。3月29日,百度集团执行副总裁、百度智能云事业群总裁沈抖在出席博鳌亚洲论坛时表示,“生成式A...
日期:03-30
中国联通智能城市研究院联合发布《数字基础设施白皮书》_联通数字化支撑中心
通信世界网消息(CWW)9月5日,在服贸会数字孪生专题论坛上,中关村智慧城市产业技术创新战略联盟联合中国联合网络通信有限公司智能城市研究院发布《数字基础设施白皮书》(以下简称...
日期:09-06
AI哨所|“解码”人类大脑:科学家开发出无创AI系统
凤凰网科技讯 《AI哨所》北京时间5月2日消息,根据周一发表在《自然神经科学》杂志上的一篇经过同行评议的研究,科学家已经开发出了一种无创人工智能(AI)系统,专注于将人的大脑...
日期:05-02
又一款产品 AirPods将于2024年12月在印度开始生产
近年来,苹果开始在印度生产iPhone等广受欢迎的产品。该公司最大的供应商富士康负责其在该地区的智能手机生产,现在,它似乎也将在其工厂生产AirPods。根据一份新的报道,苹果正计...
日期:08-18
暑期学习好物就选TA 学习效率up up up!
眼瞅着暑期临近,很多家长已经在发愁将近 2 个月的暑假怎么安排?家长没有时间辅导作业怎么办?孩子独自学习如何报听写?口语发音不标准如何练……那么,暑假如何才能解决以上问题...
日期:06-28
阿里专利可测评并指导大模型优化_阿里巴巴专利技术
通信世界网消息(CWW)日前,阿里巴巴(中国)有限公司申请的“基于大模型的数据处理方法及服务器”专利公布。iPhone 13 Pro Max配色摘要显示,该申请通过获取人机交互的指令集和指令集...
日期:07-05
iPad Pro换代 CPU和屏幕史诗般升级_ipadpro2021 cpu
今天外媒一篇最新通讯中爆料,iPad Pro定于2024年换代发布,屏幕和性能将迎来大幅升级。2020年全球平板电脑出货量12.9寸会换用OLED面板,相较于现款mini LED,其优势在于更省电、色...
日期:06-29
荣耀70手机立减500 十月到手仅需2199_荣耀50到70多少钱
荣耀70在国庆期间的促销活动一直延续,将持续到10月底,目前荣耀70手机立减-500优惠,8+256G的入门配置现在到手只要2199元了。华为mate8用的是什么芯片怎么申请微信公众号注册荣...
日期:10-09
独自一人坐电动轮椅过海关 屁股底下有玄机:藏了152部iPhone
快科技8月19日消息,据海关发布”官方消息,近日深圳海关所属皇岗海关在福田口岸旅检进境渠道查获一名旅客在电动轮椅中夹藏旧手机152部。皇岗海关关员在福田口岸发现一名乘坐电...
日期:08-22
荣耀X50系列于7月5日发布 配备骁龙6 Gen 1处理器和1亿像素主摄_荣耀x50处理器怎么样
6月30日 消息:荣耀即将发布X50系列手机,据悉,该手机将配备一块1.5K护眼曲面屏,分辨率为2652*1200p,搭载支持5G功能的骁龙6 Gen 1处理器并提供16GB内存和512GB存储空间。此外,荣耀...
日期:06-30
摩尔线程百度百科「摩尔线程显卡驱动重磅升级!游戏提升超15%、喜迎HDR」
快科技12月20日消息,摩尔线程正式发布了版本号为v240.50.0.1的社区版驱动,最大变化就是终于支持了HDR显示功能,只是目前仅限Windows 10系统。游戏体验方面,对比10月发布的v230.4...
日期:12-21
爱奇艺重新上线会员权益转赠功能_爱奇艺会员转移权益
2月3日 消息:有网友发现,目前爱奇艺“会员权益转赠”功能已重新上线。用户可以通过“会员中心-送礼品卡”界面,及智能客服提供的链接入口进入转赠页面据悉,该功能曾在1月11日下...
日期:02-03
Waymo第二轮裁员137人 两轮共裁员209人占员工总数8%
3月2日消息,美国当地时间周三,谷歌母公司Alphabet旗下自动驾驶技术子公司Waymo宣布,该公司在今年第二轮裁员中裁员137人。加上1月初的首轮裁员,Waymo今年迄今共裁员209人,占到其...
日期:03-02
马斯克就收购Twitter案取证时间改期至10月6日-7日_马斯克的Twitter
  讯 北京时间9月28日早间消息,据报道,特斯拉首席执行官埃隆·马斯克(Elon Musk)原定于当地时间9月26日和27日在法庭上回到Twitter公司律师的提问,双方将讨论他为退出收购交易...
日期:09-28
张雪峰:报志愿不要听网红忽悠 坚持理性和个性
张雪峰老师在最近的一篇文章中提醒大家在报志愿时不要被社交媒体上的网红忽悠,而是要理性慎重地选择专业。他指出每个专业都有独特的价值,如果大家都只追随热门专业,可能会导致...
日期:08-21
美电动车效能排行榜:特斯拉Model 3最强 折合油耗百公里1.8L_特斯拉电动车耗电量
与燃油车相比,电动车的排放经济性要高出不少,而且随着技术的进步,头部车企的经济性表现要更为优异。跨境电商和海淘代购的优劣据报道,近日,美国能源部公布的一份能效榜单显示,现在...
日期:09-30
RNN模型挑战Transformer统治地位 Eagle 7B模型登顶多语言基准测试_rnn模型的基本原理
要点:vivoy系列搭载高通骁龙1、RWKV发布的Eagle7B模型在多语言基准测试中表现出色,成本降低数十倍。iphone6s总销量2、Eagle7B采用RNN架构,在英语测试中表现接近其他顶尖模型...
日期:02-19
苹果智能是什么「苹果智能头显再跳票!」
6日至10日举行的全球开发者大会(WWDC)上发布Reality Pro头戴式耳机,邀请函上的菲涅尔透镜图案暗示了这一点。有传言称,这款耳机将配备8 K显示屏、先进的眼球追踪技术和15个摄像...
日期:05-14
T3网约车车型「T3出行探索网约车新模式」
;;据介绍,未来T3出行将持续聚焦网约车、出租车和自动驾驶三大板块。   众所周知,交通运输作为国民经济的基础性、先导性、战略性产业和重要的服务性行业,涉及经济社会发展...
日期:10-04
“文心一言”盗版App泛滥 百度对相关开发者团队发起诉讼「盗版app有什么风险」
凤凰网科技讯 4月8日消息,百度公众号将“文心一言”盗版App公开处刑,并表示已向北京市海淀区人民法院对苹果公司及相关开发者团队发起诉讼。百度声明:目前文心一言没有任何官方...
日期:04-08