您的位置:首页 > 互联网

OpenAI惨遭打脸!SearchGPT官方演示大翻车,源代码竟暴露搜索机制_search opened

发布时间:2024-07-29 11:30:32  来源:互联网     背景:

声明:本文来自于微信公众号 新智元,作者:桃子 乔杨,授权转载发布。

【新智元导读】OpenAI再次上演了谷歌Bard出糗的一幕,SearchGPT官方震撼演示却被外媒曝出低级错误。另有神通广大的开发者甚至扒出内部源码,揭秘了背后搜索机制。网友最新一手实测,AI秒级回复让全网惊呆。

SearchGPT发布刚过两天,已有人灰度测试到了。

今天,网友Kesku自制的demo全网刷屏,SearchGPT结果输出如此神速,让所有人为之震惊。

当询问Porter Robinson出了新唱片吗?

只见,SearchGPT眨眼功夫之间,即刻给出了答案Smile,最后还附上了链接。

再来看移动版本的回答速度,回答延迟几乎为0。

评论区下方,震惊体铺屏。

但另一方面,OpenAI当天放出的官方演示,被外媒《大西洋月刊》曝出其中的问题。

在回答8月在北卡罗来纳Boone举办的音乐节的问题时,SearchGPT竟弄错时间,出现了幻觉。

说好的,要取代谷歌呢?

全网一手实测来了

Kesku自己测试的另一个demo,呈现了SearchGPT的小部件。

她发现的一个现象是,SearchGPT倾向于强烈关注搜索结果。

分手后要删除朋友圈吗

有时就需要明确告诉它,自己想要做什么,而不是想从网上得到什么。

比如询问它伦敦天气,SearchGPT先给出了未来七天的天气预报。

Samsung Gear 360

oppowatch上市

在伦敦野餐的最佳时间和地点有什么,类似小部件的形式给出了几个备选项。

Kesku还在移动端测试了一些例子。

查询英伟达股票,会给出英伟达股票整体的可视化图,随后给出了一些分析。所有股票信息都被无缝集成在页面中。

输入一首歌名Never Gonna Give You Up,然后直接给出了YouTube歌曲视频,不用跳转到其他网页,在一个页面就可以听歌、看视频。

除了搜索功能,网友还乐此不疲地进行人性化测试——

你怎么样?

作为一个AI语言模型,我没有感情,但我在这里并随时准备帮助你解答问题。今天我能为你提供什么帮助?

给我讲一个笑话

searchpath

一个英语世界的经典双关梗就此出现——

科学家不信任原子。为什么科学家不信任原子?因为它们构成了一切!

网友现场出题

眼馋的网友们,纷纷在评论区出题,让帖主帮忙测试。

第一位网友问道,它支持地区和新闻吗,比如来自TestingCatlog的最新新闻。

Kesku测试后表示,它可以通过IP地址或精确位置为你提供本地信息(后者默认是关闭的,可以在设置中选择开启)——比如『我附近的电影院』这样的查询效果很好。

帮忙试一下其智能体搜索的解释能力。

SearchGPT在给出关于高带宽存储器的解释中,蓝色标出的内容,是参考解释。

你能尝试搜索一些付费墙后面的文章吗?那些最近与OpenAI签署了合作伙伴关系的文章。

Kesku给出了一篇文章的内容, 不过貌似还是不能越过付费内容,仅是给出了文章的总结。

更细节的内容,依旧无法看到。

你能尝试搜索Yandex月活跃用户数吗?

我想看看,当它找不到我想要的确切答案时,它是否会承认自己找到了日活跃用户数(DAU),而不是月活跃用户数(MAU),还是会像copilot那样装糊涂,只是复制粘贴整个搜索结果而忽视实际查询。

Kesku搜素后的结果如下所示:

显然,根据提问者问题,SearchGPT给出了回答。

与Perplexity相比如何?

Kesku称暂时还未测试复杂的任务,不过非常喜欢目前测出的结果。

在下面提示中,她直接问道谁是Kesku这么小众的问题。

没想到,SearchGPT给出了正确的解答,Perplexity却回答错误了。

有网友对此评价道,很酷的演示!也许SearchGPT能在本地搜索领域带来一些变革?它能帮助你在现实世界中完成事情。从外观来看,它有很好的数据源、简洁的小部件,而且速度超快。不知道与谷歌相比,他们能把每次查询的成本降低到多少?

揭秘SearchGPT搜索机制

科技媒体TestingCatolog也率先进行了内测,并揭开了SearchGPT搜索机制的一角。

与当前ChatGPT提供的通用Bing搜索功能不同,SearchGPT更擅长提供实时信息。

虽然仍旧依赖Bing的索引,但SearchGPT将会有自己的网络爬虫(类似Perplexity),用于动态获取实时数据,从而克服Bing速度较慢的问题。

甚至,TestingCatalog还挖出了SearchGPT的源代码,并在评论区信誓旦旦地表示绝对准确,我有内部人士。

源代码不仅露出了Bing的接口,而且可以发现,搜索结果由多模态模型提供支持。

虽然看不出其中具体的处理流程,但调用的模型应该具有自动理解图像的功能。

官方演示大翻车,OpenAI惨遭打脸

就在网友们兴致勃勃地试用时,《大西洋月刊》却站出来泼了一盆冷水——SearchGPT在官方demo中有明显的搜索结果错误。

用户给出的搜索问题是8月在北卡罗来纳Boone举办的音乐节。

这个问题其实很难体现SearchGPT相对于传统搜索引擎的优势。同样的问题如果抛给谷歌搜索,也能给出相差无几的结果。

比如SearchGPT放在首行的阿巴拉契亚夏季节(An Appalachian Summer Festival),也同样是谷歌搜索的第二位结果。

但尴尬的是,标题下方的AI摘要把一个关键信息弄错了——经主办方确认,音乐节举办日期为6月29日~7月27日。

如果你按照SearchGPT给出的信息去买票,将一无所获——7月29日~8月16日恰好是售票处正式关闭的时段。

OpenAI发言人Kayla Wood已经向《大西洋月刊》承认了这个错误,并表示这仅是初始的原型,我们将不断改进。

这个错误让人不禁想起Bard曾经造成的惨剧。

2023年2月,谷歌推出了这个聊天机器人产品以对抗ChatGPT,但首次亮相就出现了事实性错误,导致Alphabet股价当天暴跌9%,市值瞬间蒸发1000亿美元。

Bard称James Webb太空望远镜拍摄了系外行星的第一张照片,但实际上这个功绩属于欧洲南部天文台的VLT

但好在,OpenAI没有股价可跌,而且仅开放内测的做法也是相当谨慎。毕竟有谷歌的前车之鉴,可以预料到,LLM这种错误几乎是无法避免的。

即使OpenAI能够找到方法大幅减少SearchGPT的幻觉,但面对庞大的访问量也是杯水车薪。

假设幻觉率仅为1%(这个比率很难达到),按照谷歌的规模,也会导致每天产生数千万个错误答案。

更何况,我们目前还没有发现足够可靠且有效的方法,来消除LLM的废话和幻觉。

而且,Andrej Karpathy大佬曾经在推特上表达过这样的观点:幻觉并不是bug,而是LLM最大的特点。

Karpathy将LLM比喻为梦想机器:我们用prompt引导模型做梦,再加上对训练文档的模糊记忆,就得到了生成结果。

虽然大多数时候生成结果是有用的,但既然是梦境就有可能失控。当LLM做梦进入有事实错误的领域时,我们就会给它贴上幻觉的标签。

这看起来是个bug,但LLM只是做了它一直在做的事情。

这种机制和传统的搜索引擎完全不同。后者接收提示后仅仅是逐字返回数据库中最相似的文档,因此你可以说它有创造性问题,因为搜索引擎永远不可能创造新的回应。

根据Karpathy的说法,我们就很难指望由当前LLM驱动的AI搜索能生成100%真实准确的结果。

那么这场搜索引擎的变革会怎样展开?LLM的梦境创意和传统搜索引擎的真实可靠,究竟是共存下去,还是会你死我亡?


返回网站首页

本文评论
苹果代工中毒员工诉求基本被拒绝 称将集体辞职(苹果为什么要代工)
  前天晚间,苹果代工厂联建科技投资方胜华科技正式回应正己烷中毒员工所提诉求,但回复内容激怒了受害员工。昨天,受害员工代表向记者表示,员工对企业态度仍然不满,因为看不到...
日期:07-26
微软高校版Win7被指歧视其他用户群
  1月12日消息,微软校园先锋计划合作方赛尔网络总裁匡鹏日前在腾讯微博表示,大学生仅需购买最低价格的Win7家庭版后,再以149元升级就可获1399元的专业版,他向腾讯科技表示,微...
日期:07-25
windows8.1镜像文件「为何越来越大!Windows最新镜像文件已达6.24 GB:三个原因导致」
快科技11月6日消息,大家常用的Windows系统有很多版本,比如常见的家庭版、教育版和专业版等等。 但不管是哪个版本,最近几年的Windows 10和Windows 11系统变的越来越臃肿是无...
日期:11-06
苹果、Epic双双要求美法庭重新考虑反垄断裁决_epic起诉苹果垄断案开庭
北京时间6月9日早间消息,据报道,苹果和《堡垒之夜》的开发商Epic游戏公司双双要求法庭重新考虑其反垄断裁决。4月,美国一家上诉法庭作出一项裁决,要求苹果不得不允许各个开发公...
日期:09-24
飞信卒于2022:中国移动一手好牌被打烂,5亿用户成“僵尸”
每一期oppo至美奖图源:图虫创意诺基亚s40机型魅族要出新品了   来源:时代周报   文/王婷   日前,中国移动宣布自9月30日起,运营了15年、注册用户达到5亿的和飞信业务停止...
日期:07-31
昆仑万维人工智能时代人才宣言:推动管理层年轻化 平均年龄降至85-90后
4月3日 消息:今日,昆仑万维发布面向人工智能时代的六条人才宣言,旨在通过一系列的行动,包括年轻化的管理团队、灵活高效的工作流程、为优秀人才提供竞争性的待遇和发展机会、以...
日期:04-03
联想手机大全智能手机「联想智能手机怎么样」
联想作为一个全球知名的电脑品牌,早在2010年就进入了智能手机市场。多年的市场耕耘让联想手机在用户心中拥有了一定的知名度和声誉。那么,究竟联想智能手机有多强大呢?本文将从...
日期:05-31
押注直播电商,品牌靠什么实现确定性增长?「直播电商带来价值变革」
声明:本文来自于微信公众号 市值榜(ID:shizhibang2021),作者|何玥阳,编辑|嘉辛,授权转载发布。在刚刚过去的双11,直播电商增长强劲,依然是电商最大的风口。星云数据显示,今年双11,全...
日期:11-16
亚马逊加心愿单的好处「亚马逊海外购心愿单即将下线」
3 月 17 日消息,据多名网友收到的电子邮件显示,亚马逊海外购心愿单将于 2023 年 3 月 24 日之前下线,亚马逊提醒用户尽快查看心愿单信息并将其加入购物车。此后该功能将无法访...
日期:10-06
全域共进、玩法升级!快手电商发布汽摩五金行业618大促政策_快手卖五金怎么样
5月14日,快手电商汽摩五金行业夏季焕新峰会暨618启动会召开。会上,快手电商聚焦618大促及夏季营销节点,深入解读汽摩五金行业的发展趋势、商机洞察、运营策略,以及快手618大促扶...
日期:05-23
soul取消悄悄上线_Soul App重新上架App Store:将完善内容治理
  9月10日上午消息,Soul App重新上架苹果App Store,据介绍,各项功能均可正常使用。Soul App表示,将继续投入大量精力,通过技术和人工手段完善内容治理。   6月28日,国家网信...
日期:12-08
北大、清华等122家高校网站被挂马 五成网站挂马与高考相关
  高考已进入读秒阶段,考生们都在以冲刺的速度进行着最后的复习。根据360安全卫士恶意网页监测数据显示,针对高考的挂马网页正在急剧上升。仅11日一天,就有包括北大、清华等...
日期:07-29
特斯拉中国models涨价3万元「特斯拉中国4天内两次涨价 今年初曾大幅降价」
5月5日,特斯拉中国宣布全新Model S和全新Model X全系车型的售价提高1.9万元。这是继5月2日特斯拉中国调高全系国产车型的价格之后,中国市场再次遭遇涨价。目前,特斯拉中国官网...
日期:05-05
红魔mars电竞「红魔推出冠军限定版手机 中国电竞队夺冠」
来源:中关村在线中国电竞队在9月26日的亚运会《王者荣耀》亚运版本比赛中获得冠军,成为电竞项目的首枚正式金牌。此次比赛,中国队派遣了6位KPL职业联赛选手参赛,包括孙麟威(坦然)...
日期:10-07
协调法则「调协大模型时代存算矛盾的HBM,如何入局其中寻找机会?」
声明:本文来自于微信公众号 奇偶派(ID:jioupai),作者:关注HBM的,授权转载发布。近日,HBM的热度不可谓不高,无论是相关半导体大厂“激进”扩产的计划,还是产品供不应求的消息,都将这...
日期:12-20
戛纳红毯网红都是谁「戛纳0特写引热议:网友发现戛纳红毯内地艺人0镜头」
5月15日消息,据国内多家媒体报道,戛纳电影节开幕式正式开幕。有网友发现,在官方直播镜头中,戛纳红毯内地艺人全都没有特写镜头,反而是一名网红收获了特写镜头。随后话题戛纳0特写...
日期:05-16
上海芯片产业生态基金正式发布 规模60亿元以下「上海芯片产业生态基金正式发布 规模60亿元」
4月17日消息,近日,在上海汽车芯谷·芯谋研究·全球(首届)汽车芯片产业峰会上,上汽芯片产业生态基金正式发布,基金规模60亿元,将主要关注功率转换芯片、电源管理芯片、电池管理芯片...
日期:04-17
李荣浩沉迷《王国之泪》 吐槽吉波得女王太难:不可能有人打的过
快科技5月20日消息,虽然今天是520,但是丝毫不妨碍玩家们沉迷刚刚上线的《塞尔达传说:王国之泪》无法自拔。歌手李荣浩昨晚还在玩《王国之泪》,并且在深夜发文吐槽:雷之圣殿的boss...
日期:05-20
宁德电池被美国海关扣押 特斯拉合作中断?官方回应:假的_宁德国际电池
快科技6月5日消息,小作文”今日来到宁德时代头上。6月5日早间开盘后,有市场消息传出宁德时代不供应特斯拉北美,这也令宁德时代股价一度跌逾5%。对此,有投资者在互动平台向宁德时...
日期:06-06
夺命的野生景点 是如何成为“网红打卡地”的(网红打卡旅游景点)
作者: 乐琰   高温热浪带火了城市周边的避暑休闲游,然而此时却发生了意外。   周末或假期,在四川彭州市龙门山镇小鱼洞社区龙槽沟的河道上,人们铺开桌子搓起了麻将,或在露营...
日期:08-18