您的位置:首页 > 互联网

长了眼睛和嘴,ChatGPT 开始入侵物理世界

发布时间:2023-09-27 11:13:27  来源:互联网     背景:

AI新浪潮观察

亚马逊黑五秒杀

6min read

长了眼睛和嘴,ChatGPT 开始入侵物理世界

连然2023/09/26


摘要

向着贾维斯坚定前行。

作者 | 连冉
编辑 | 靖宇

OpenAI,又悄咪咪地放大招了。

华硕会员卡

当地时间 9 月 25 日,OpenAI 在官网更新博客,宣布 ChatGPT 已经具备看、听、说的能力。这是 GPT-4 大型语言模型推出以来最大的一次功能更新。从官方放出的应用案例来看,通过手机摄像头和麦克风,ChatGPT 现在已经能帮助人们解决实际问题。例如用手机拍一下共享单车的照片,并且询问人工智能助手如何调节座椅,ChatGPT 就可以看懂图片,并且给出相应步骤。随着技术的快速迭代,生成式 AI 竞赛正在进入了一个全新的阶段——多模态之争。在这个阶段,各大科技公司纷纷推出了一系列新产品和功能,通过人工智能技术打破传统搜索引擎和聊天机器人的局限性的同时,也为用户带来更加丰富和精准的交互体验。那么,升级了的 ChatGPT,是否能成为贾维斯一样的AI助理,帮助人们打点生活了而 OpenAI 又是怎么做到的?

01

ChatGPT

长了眼睛和嘴巴

生成式 AI 竞赛的下一个阶段正在来临——多模态之争。最近,Meta 推出了 AudioCraft,用于通过 AI 生成音乐;谷歌 Bard 和微软 Bing 的聊天体验也已部署了多模态功能;亚马逊也在借助 LLM 的力量来增强其 Alexa 数字助理(为 Echo 系列智能设备提供支持)的功能,9 月 25 日刚刚宣布斥资 40 亿美元投资 OpenAI 的竞争对手 Anthropic,后者是 Claude 2 聊天机器人的制造商;苹果也在试验通过 AI 生成语音,即 Personal Voice。而在上周发布支持文本和排版生成的最新图像生成模型 DALL-E 3 之后,当地时间周一晚,OpenAI 发布了《ChatGPT 现在能看、能听、能说了》的公告,宣布对 ChatGPT 进行重大更新,使其 GPT-3.5 和 GPT-4 人工智能模型能够分析图像,并作为文本对话的一部分对图像做出反应。此外,ChatGPT 移动应用程序还将增加语音合成选项,与现有的语音识别功能搭配使用时,将实现与人工智能助手的完全语言对话。根据官网,ChatGPT 现在已经具备了如下功能:

语音功能

OpenAI 在公告中称语音功能由一个新的文本转语音模型(text to speech)驱动,只需要文本和几秒的语音样本就可以生成类似人声的音频。一方面,OpenAI 与专业配音演员合作创建了语音条,另一方面,OpenAI 还使用了自己开源的语音识别系统 Whisper,可以将用户的语音转录为文字。ChatGPT 已经有了语音交互能力|OpenAI该功能推出后,用户可以在应用的设置中选择语音对话,然后从Juniper、Sky、Cove、Ember和Breeze等五种不同的合成声音中选择一个,说出他们想要的内容,机器人就会使用所选的语音提供答案。例如,人们可以询问睡前故事,或者就餐桌上正在进行的谈话提出问题。不过,语音对话功能的使用可能面临有一些限制。OpenAI 表示,该模型在转录英文文本方面表现出色,但在一些其他语言,特别是使用非罗马字母的语言中表现不佳。因此,建议非英语用户使用 ChatGPT 来进行此类用途时要慎重。

图像理解

OpenAI 表示,ChatGPT 中的新图像识别功能允许用户上传一张或多张图像,使用 GPT-3.5 或 GPT-4 模型进行对话。这些模型将其语言推理技能应用于各种图像,如照片、截图和同时包含文本和图像的文档,人们只需点击一张图片,将其添加到聊天中,并提出潜在的问题,ChatGPT 就会根据所附文本分析图片,并给出答案。它甚至可以围绕该主题进行前后对话。按照 OpenAI 的说法,用户可以上传某物的图片并询问 ChatGPT 相关问题——比如在旅行时拍一张地标的照片,让 ChatGPT 来讲述景点的有趣之处;拍下冰箱和食品储藏室的照片,找出晚餐要吃什么 (还可以问一些后续问题,以获得进一步的食谱)。(视频)
在官方提供的示例中,一张自行车的照片上传到 ChatGPT 界面,之后询问后者如何将座位调低。ChatGPT 首先询问了自行车的型号,因为座位的调整方式因车型而异。它详细解释了不同车型可能采用的快拆杆或螺栓的区别,并提供了相应的步骤。然后,官方制造了一点混淆,拍摄了一张螺栓的照片,并在图中用官方的画图工具突出显示,试图让 ChatGPT 分辨是螺栓还是快拆杆。ChatGPT 很快指出图中所示的是螺栓,并建议用户寻找内六角扳手来解决问题接着,官方拍摄了一张工具箱的照片,向 ChatGPT 询问到底是哪一个扳手。ChatGPT 再次表现准确识别出所需的扳手,并清晰地指导用户选择正确的尺寸。这个示例清楚地展示了 ChatGPT 在解决实际问题时的实用性和智能响应。在去年 3 月 GPT-4 发布时,OpenAI 就已展示了该模型解析文本和图像的初步能力,很快,这些能力将成为 ChatGPT 使用中更常见的存在。OpenAI 将在未来两周时间里向为 Plus 和企业用户推出上述功能。用户可以在 iOS 和 Android 使用 ChatGPT 的语音合成功能,图像识别功能则在网页和 App 端均可用。

02

能力越大,责任越大

在 ChatGPT 发布近一年来,OpenAI 对其底层模型和界面进行了多次更新。而任何生成式 AI 的进步都需要考虑严肃的伦理和隐私问题。OpenAI 在公告中声称其目标是开发安全且有益的通用人工智能,我们相信,逐步提供我们的工具,可以让我们随着时间的推移不断改进和完善风险缓解措施,同时也让大家为未来更强大的系统做好准备。对于涉及语音和视觉的高级模型来说,这一策略越来越更加重要。毕竟,新语音技术能够仅从几秒的真实语音中创造逼真的合成语音,这为创造性应用打开大门的同时,也带来了新的风险,比如恶意冒充公众人物或进行诈骗等。为降低音频深度伪造的风险,OpenAI 表示它已将语音合成功能的使用范围限制在语音聊天和某些已获批准的合作伙伴关系中。其中包括与流媒体公司 Spotify 的合作——Spotify 正在使用其背后的技术为平台上的播客翻译不同语言的内容。Spotify 个性化副总裁齐亚德-苏丹(Ziad Sultan)在一份新闻稿中说:通过与创作者本人的声音相匹配,语音翻译让世界各地的听众能够以前所未有的真实方式发现新的播客,并从中获得灵感。同样,为了避免图像识别带来的隐私和准确性问题,OpenAI 还限制了机器人对输入图像中出现的人进行分析和直接陈述的能力,其表示已经采取了技术措施,以限制 ChatGPT 分析和直接陈述个人信息的能力,系统还是应当尊重个人隐私,但是真正的恶意利用情况还是要在它面向公众推出后才能知道。这次 ChatGPT 推出的语音交互和图像识别功能,为聊天机器人带来了更强的实用性,让它们从简单的文本处理工具更贴近真实生活。同时,这似乎也预示着未来 AI 系统的发展方向——不仅要理解抽象的文字世界,还要能感知复杂的语音和图像信息,甚至是物理世界,从而真正进阶达到人机交互的境界。
*头图来源:OpenAI本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

OpenAIChatGPT

郭明錤iphone13价格


返回网站首页

本文评论
餐饮行业如何做好数字化转型,擎朗机器人用实力发言
  随着科技的进步与发展,大家出门就餐时会发现在不少餐厅内都有几款机器人在店内运行,经了解,这些都是来自上海擎朗智能科技有限公司的机器人,它们的出现也为餐厅的运营管理...
日期:03-01
iPhone 15屏幕维修费用公布 无AppleCare+最高自费超3千_iphone屏幕维修保内价格
9月18日 消息:iPhone15系列手机已开始预订,苹果也在官网公布了最新一代iPhone的维修费用。数据显示,如果没有购买AppleCare+保险服务,iPhone15系列手机屏幕维修的自费费用最高...
日期:09-18
鳄鱼有没有灭绝「鳄鱼独居16年产子 科学家:濒临灭绝物种的生存策略」
6月29日消息,美国科学家近日发现一条18岁鳄鱼在哥斯达黎加动物园中独居了约16年,下了14枚蛋,竟然有7枚是可以繁殖的,其中一个虽然没有成活,但已经有完全成型的鳄鱼胚胎。oppo ren...
日期:06-30
英国5G仍计划用华为(英国华为5g合作5g最新消息)
  (原标题:允许华为有限参与?英媒:英国5G仍计划用华为)   美国一直以“间谍嫌疑”为由要求盟友禁用华为,包括英国和德国,不过上周,德国宣布不会禁止华为参加5G建设。约翰逊(...
日期:09-14
小米Redmi Note 12系列今晚开售:1199元起!_小米/Redmi Note 11
10月27日,小米发布了米Redmi Note12系列手机,今晚8点,小米Redmi Note12系列将正式开售,此次共有四款机型可选,分别是1199元起售的Note12标准版、1699元起售的Note12Pro、2099元起...
日期:11-10
天下秀:拟发行可转债募资不超14亿元 用于新媒体营销培训基地项目等
  财联社8月31日电,天下秀公布公开发行可转换公司债券预案,此次公开发行可转债拟募集资金总额不超过人民币14亿元(含14亿元)。此次发行拟募集资金总额不超过人民币14亿元(含...
日期:09-01
微软在Tech Ed展示新四核Windows平板电脑
8月26日消息,据国外媒体报道,微软高管本周在新西兰举行的Tech Ed会议上展示了一些新设备,其中最有趣的是一款没有命名的四核Windows平板电脑。 本周微软在新西兰举行的Tech...
日期:07-22
快手电商:38节期间将推出10亿消费券__快手购物满200返20券去哪领
3月1日消息,3月1日-3月8日快手38节活动期间,快手电商将累计拿出10亿消费券补贴用户。iPhone网络速度慢据介绍,活动期间,快手电商还推出了分期免息加大牌大补双重可叠加福利,延长...
日期:03-01
标准引领,产业协同:中国移动网络智能化已规模应用_中国移动智能网是什么
通信世界网消息(CWW)自智网络以自动化与智能化为核心特征,以实现通信网络提质增效、赋能行业数智化升级为目标,是5G及未来通信网络与人工智能深度融合的显著发展趋势。本文从自...
日期:08-23
苹果版“余额宝”已正式上线 年利率4.15%_余额宝的年利率大约是多少
4月19日消息,据外媒报道,苹果与高盛合作的Apple Card高收益储蓄账户功能已正式上线,其功能类似“余额宝”,提供4.15%的年利率,这一年利率是美国平均水平的10倍以上。Apple Card是...
日期:04-19
进击元宇宙,诞生于好莱坞的数字王国选择深耕虚拟人「元宇宙超现实数字人」
“我刚接手数字王国时,好莱坞的人开过一个盘赌我能干多久。后来Jimmy Horowitz跟我说他押我最多能干 3 个月,这已经是盘内最长的了。”谢安回忆时的语气是洒脱又带着些许笑意...
日期:01-08
垂直搜索引擎兴起 产业格局面临黄金机遇_垂直搜索引擎是针对某一个行业的专业搜索引擎
  近日有几则与搜索引擎相关的新闻引起了公众的注意,第一条是关于一淘收录独立B2C商品内容与用户评论的风波,另一条则风传百度近期开发与微博结合的内容搜索。看似平静的搜...
日期:07-24
微众银行:已服务超3.6亿个人客户,340万小微市场主体「微众银行业务介绍」
4月19日消息,今日,微众银行副行长兼首席信息官马智涛透露,“目前已服务超过3.6亿个人客户和340万小微市场主体,初步形成了商业可持续、成本可负担的数字普惠金融模式。”乐视pro...
日期:04-20
facebook全球下载量_全球1000个访问量最高网站 Facebook居首
  据国外媒体报道,谷歌日前评出了全球访问量最高的1000个网站,社交网站Facebook高居榜首,而百度和腾讯跻身前十位。   该排名主要依据网站的独立用户访问量,每月更新一次。...
日期:07-29
暴雪突然“分手” 网易发话了!非常遗憾 坚持到最后一刻「暴雪又崩了」
暴雪今日意外放出重磅消息,与网易的授权协议在明年1月24日0点到期后将会终止。届时,所有《魔兽世界》、《魔兽争霸III:重制版》、《星际争霸》系列,《炉石传说》、《风暴英雄》...
日期:11-19
流量正悄悄转移,中国厂商应尝试出海新渠道__国内企业出海
(原标题:流量正悄悄转移,中国厂商应尝试出海新渠道) “广告业就是这样,人们往哪里移动,广告预算就会相应去到哪里。疫情期间消费...
日期:09-15
10亿补贴以旧换新  苏宁全民焕新节真“会玩”_苏宁五折换新
  陪伴是最长情的告白。   对于长时间陪伴我们的人或者物,我们也总是报以感恩之心,比如家里的老家电在“服役”了10年之后,我们也仍然不舍得丢弃。但事实上,老旧家电因为设...
日期:05-19
503寝室14年前留信的学姐找到了 感动许多网友_503寝室bysequence
近日,一位衡阳师范学院网友分享了一张2009年学姐留下的明信片致503室后辈们的一封信”,感动了许多网友。该学姐写道,503,在这个寝室住着4位为理想而努力奋斗的女孩子。像所有有...
日期:03-16
抢先于SpaceX,全球首个液氧甲烷火箭“朱雀二号”发射成功|钛媒体焦点
朱雀二号遥二火箭中国一家商业航天公司赢得了与美国SpaceX进行的液氧甲烷火箭发射竞赛。钛媒体App获悉,7月12日上午9点,由蓝箭航天空间科技股份有限公司(LANDSPACE)自主研制的朱...
日期:07-12
iPhone 14 Plus京东减1000 官方5999「京东苹果11满减900」
iPhone14 Plus现在立减1000元了,正式开启今年的双11大促,目前已经从6999元降到了5999元,早在本月初iPhone 14 P路上首销当日就立减500元,现在京东联通等一些官方的自营店已经可...
日期:11-01