您的位置:首页 > 互联网

“盗”数据,AI大模型的黑暗面

发布时间:2023-06-19 13:55:09  来源:互联网     背景:

声明:本文来自于微信公众号 深AI(DeepAI2023),作者 | 黎明 编辑 | 魏佳,授权转载发布。

一个叫作“一笔两划”的创业公司,公开声讨曾经的教培龙头“学而思”,说它用“扒库”的方式,“偷”走了自己辛辛苦苦攒下的数据。

故事的起因,是在今年4月中旬,“笔神作文”(一笔两划公司旗下产品)发现,服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。

访问量远超日常平均值。笔神作文对深AI透露,平时的日访问量大约是几百或几千,那几天暴增至每天超过50万。一周之内,他们的数据被爬取了258万次。

图片

笔神作文公布的数据库调用情况

通过查阅服务器日志,笔神作文发现,单一IP通过“爬虫”技术,高密度地爬取了他们的数据库。这个IP每次访问的搜索词,都是作文相关,系统会每页返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,基本上把库里同个题目的所有作文,全部抓取完了。

业内人士介绍,通常情况下,普通用户不会这么干。这种对数据库的搜刮式访问,也被称为“扒库”。

笔神作文认为,“扒库”的幕后黑手,是它的合作伙伴学而思。

“扒库”事件发生后没多久,笔神作文发现,学而思在进行数学大模型MathGPT的研发,并表示将于近期上线一款“AI助手”,其中一项功能,就是作文。

笔神作文被“扒库”,和学而思开发“作文AI助手”,这两起事件之间是否有关联,目前尚没有明确结论。

但笔神作文认为,自己的权益被侵犯了。它向对方发去律师函,并将这件事公之于众,试图讨要一个说法。学而思方面则给出公开回应,称对笔神素材内容的使用均符合合同要求,且其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

此次事件中,值得探讨的不仅是作文素材。数据,对于大模型而言,意味着什么?

天猫入驻品牌数量

合作伙伴变成门口野蛮人?

双方各执一词

我们先简单介绍一下笔神作文。

这家公司成立于2017年,产品“笔神”是一款人工智能辅助写作软件,算是AI+教育的产物。一开始“笔神”面向内容创作平台和相关工具厂商,后来深入到垂直领域,用AI教学生写作文,于是就有了“笔神作文”。

你可以简单理解:它处在教育行业,面向的是学生群体,利用了人工智能技术,解决的是写作文的场景。

AI写作文,跟今天大火的ChatGPT,在技术上有很多共通之处。它们都涉及到自然语言处理、语义分析预测、机器学习等技术。笔神作文创始人宋嘉伟,曾担任过索尼高级系统架构师、奇点机智CTO。

早在五年前,宋嘉伟就说过,在考虑如何将bert或GPT-2这些预训练语言模型技术运用到应用中去。当时GPT尚未出圈,不像今天这样广为人知。

开始做AI作文之后,笔神作文正式进入教育赛道,跟教培龙头学而思踏进了同一条河流。

据笔神方面介绍,2020年12月,笔神作文跟学而思达成合作。笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,按调用次数结算费用。为此,笔神作文为学而思开放了服务接口。

Windows新界面

也就是说,学而思可以调用笔神作文数据库中的作文素材,并为之付费。

作文素材,是这项交易中的一个核心资产,也是笔神作文商业模式的基石。事实上,笔神作文最早就是从素材这个点切入的。它当年主打的“一键找素材”功能,用户通过搜索关键词,系统可以自动匹配素材,资源从古诗词经典、公文,到现代网文均有涵盖。在写作过程中,系统还可以实时推送素材。

这些素材不是来源于网络,而是笔神自有的数据库。通过AI技术的智能识别、翻译、匹配,笔神能向用户的搜索行为反馈回合适的素材。

当这些作文素材的量足够大、质量足够优质、匹配够精准,就具备了一定的商业价值,甚至可以对外售卖。这才有了跟学而思的合作。

问题是,这些素材有被“偷”走的风险,尤其是在开放部分接口的情况下。

按照笔神作文对深AI的介绍,他们对与学而思的合作范围进行了限定,“我们开放接口让他们调用我们的数据,显示在他们自己的APP里,但合同中并未包括存储数据或用于AI算法的权限。数据应仅供他们的用户调用,不能被存储在他们的机器上。”

相当于,当用户在学而思的产品端发起搜索,调用的作文范本来自笔神作文,学而思不能自己储存。

4月中旬的那次异常调用,让笔神作文认为,超出了正常的商业合作范围。“他们的行为触发了我们的防御机制,这才使我们发现了这一情况。”

笔神作文称,他们查看了后台的访问日志,发现是由单一IP通过“爬虫”技术发起的非法访问。“我们已经掌握了这个IP地址。”

图片

笔神作文公布的IP地址情况(一部分)

国内某人工智能创业公司的CEO刘然对深AI分析,这种穷举关键词的方式,肯定是想要获取库里的数据,这是非常明显的行为。

笔神作文对深AI透露,事发后他们与学而思的运营人员求证,对方直接承认,是学而思的算法组在爬取数据并作为己用。不过,针对此说法,深AI尚未得到学而思方面的证实。

曾经的合作伙伴,突然变成了门口的野蛮人,让笔神作文非常愤怒,多次发出律师函。

学而思方面则在6月13日的公开回应中称,其对笔神作文接口的调用,并未超出双方合同范围,对笔神素材内容的使用均符合合同要求,未用于合同以外的任何用途。学而思专门强调,其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

双方各执一词,目前未有定论。笔神作文称,该案件可能将会成为“AI大模型数据被盗第一案”。

一个值得探讨的问题是,数据,对于大模型而言,意味着什么?

数据从哪里来,是个大问题

算力、算法、数据,是人工智能进行机器学习的三大核心要素。

为了提升算力,很多科技公司都在花重金抢夺英伟达的GPU。在算法端,国内外的一些大厂将算法开源,大大降低了模型开发的门槛。

而在数据端,壁垒一直存在。去哪里找到高质量数据,是个关键问题。

生成式AI大模型需要使用大量且多样化的数据来进行训练,以提高模型的泛化能力和生成能力。不同的模型可能使用不同的数据来源。ChatGPT这类通用大模型,用了很多公开数据,如各类新闻网站、书籍、科学论文、网页等等。一些垂直领域的大模型,则需要找到有针对性的语料库和数据集。

国内某头部科技公司的大模型负责人对深AI表示,ChatGPT其实也用了很多非公开的数据,网上的公开数据很多都质量非常差,高质量的数据是有门槛的。数据的获得、清洗,都面临很大挑战。

好未来CTO田密在5月4日公开表示,“很多领域是有数据壁垒和行业know-how的,大模型还是得和领域知识深度结合,加上足够多的领域数据来训练领域大模型。”

就像田密说的,领域大模型要和领域知识深度结合。在AI作文领域,作文素材就是训练机器的重要数据。

早在2019年,笔神公司就开始有目的性地收集数据,训练自己的作文语料库,覆盖名人名言、诗词、公文、网络语言等。他们利用训练机器模拟人工标签的方式,对每条语料打标签。

AMD 锐龙7 4700U(7nm制程)

在垂直语料库中,只有对数据打过标签,才能基于向量匹配、用户当前创作内容的语义分析和预测,进行精准的内容推送。

刘然对深AI说,建立模型需要大量经过验证的数据,如果这些数据已经整理好了,那么就可以节省大量的人力工作。笔神作文整理的作文,可能被当作标注数据使用。

这个过程是持续且漫长的。笔神作文称,创业六年,他们总共积累了超过500万篇作文素材,月批改量超3万篇。这些作文素材,是经过一篇篇人工审核、筛选投稿、打标签、分级、数据纠正,最后累积起来的。

这些数据不仅能在APP的页面以素材形式呈现,还能拿去在后台训练算法。所以在跟其他公司合作开放接口时,笔神作文在协议中专门加了一条——不得“缓存,存储,作为语料进行计算,训练”。

笔神作文认为学而思“盗”走了数据,揣测学而思将数据用于数学大模型MathGPT以及学而思学习机“作文AI助手”的训练和研发。但这似乎很难证明。

刘然认为,正常来讲,作文数据应该会提前设置一些限制,比如不接受高并发,在数据里加密,而且应该能追踪到数据的去向和用途。不过他同时认为,作文数据不像用户关键行为数据那么关键。

“你可以让AI学习什么是好的作文,然后让它按照这些标准生成。但我认为,其实不需要那么大量的数据。几万篇高质量的作文应该就够了。”他说。

“AI大模型数据被盗第一案”,

立得住吗?

笔神作文态度强硬,连发两篇公告,要求学而思道歉,同时索赔1元。它甚至想给这次事件扣上“AI大模型数据被盗第一案”的帽子。

上海曼昆律师事务所主任刘红林律师对深AI表示,笔神作文自建的语料库或素材库,本身是有知识产权权益的。但是否属于著作权法上的作品,需要看独创性是否符合相关的判定标准。

如果笔神作文有足够的证据能证明学而思恶意抓取了他们的数据,那么可以发起知识产权侵权或不正当竞争诉讼。”他说。

另外,笔神作文与学而思有合作协议,如果对知识产权的尊重和授权进行了约定,他们也可以通过合同违约来保护自己的权益。

值得注意的是,笔神作文素材库中的很多作文,是用户投稿而来。笔神作文自称,每个月都会收到30万篇作文投稿。因此,在认定是否侵权之前,先要厘清这些素材的知识产权归属。

刘红林分析,这要看作文的创作者(投稿人)与笔神作文之间,如何对知识产权进行约定。如果用户在投稿时对笔神作文进行了知识产权授权,那么笔神作文就享有对应的权益。

深AI查询笔神作文的用户服务协议,发现其中有这么一条:用户在笔神作文发表的内容(包括但不限于留言、评论、笔记),授予笔神作文免费且不可撤销的非独家使用许可。

图片

也就是说,笔神作文对素材库拥有知识产权。

刘然想不明白的是,笔神作文为什么会与学而思合作。“如果是我,绝对不会跟学而思合作,因为我们是强竞争关系。”他认为,“在大模型时代,仅仅提供作文数据库的做法是没有机会的。”

有业内人士分析,学而思有流量,有场景,有知名度,尤其是在面向用户的前端产品方面,学而思的优势要比笔神作文大。而在后端收集数据、建设素材库的工作,费时费力,短期难见成效。对于学而思而言,直接拿现成的素材库接入是最方便的。笔神作文则靠出售素材库的调用权限,实现了商业变现。

但对笔神作文这种创业公司而言,这样的合作就像是带刺的玫瑰。因为巨头随时可能打进你的领地,甚至在业务层面形成直接竞争。

AI批改作文是笔神作文很重要的一项功能。而早在三年前,好未来(学而思母公司)也曾推出过“中英文作文批改解决方案”,通过AI实现智能化中英文作文批改。

现在,AI改作文只是好未来庞大AI产品矩阵的冰山一角。在其最新的产品介绍中,中文作文批改,属于中英文听写批改中的一个模块。好未来有更大的野心,它的触角已经伸向AI+教育的方方面面。

图片

ChatGPT带火生成式AI之后,人工智能行业的创业者既兴奋又焦虑。他们兴奋的是,行业终于又热起来了;焦虑的是,ChatGPT实在是太强大了,很多垂直领域的创业项目一夜之间失去了壁垒。

像笔神作文这样的公司,竞争壁垒在哪里,如何与巨头对抗,是很现实的问题。而人工智能行业的加速内卷,同质化竞争的加剧,会让创业公司与巨头的对抗升级。

抢数据,或许只是新一轮争夺战的冰山一角。

*题图来源于视觉中国。应受访者要求,刘然为化名。


返回网站首页

本文评论
华为卫星系统「华为卫星通讯技术首次下放!华为nova 11官宣4月17日发布」
4月10日消息,今天华为官方宣布将于4月17日14:30发布华为nova 11新机。在这款新机上,华为实现了卫星通讯技术首次下放,不仅是旗舰机,华为的中端机型也有卫星通讯功能了。目前华为...
日期:04-10
校方回应学生留言后食堂删掉猪肚2字:已责令承包商整改
12月5日 消息:12月2日,安徽合肥。 一位大学生在食堂意见簿留言要求多加几片猪肚不然就改名,没想到商家直接把猪肚二字去掉了。一位同学说,在食堂看到意见簿,想到平时在食堂吃的...
日期:12-08
“文心一言”盗版App泛滥 百度对相关开发者团队发起诉讼「盗版app有什么风险」
凤凰网科技讯 4月8日消息,百度公众号将“文心一言”盗版App公开处刑,并表示已向北京市海淀区人民法院对苹果公司及相关开发者团队发起诉讼。百度声明:目前文心一言没有任何官方...
日期:04-08
性价比最高的手机_性价比最高的手机3000-4000
当我们购买手机时,往往关心的是价格和性能之间的平衡,也就是所谓的性价比。现在市场上充斥着各种品牌和型号,使得消费者很难确定哪一款手机具有最高的性价比。通过搜集相关信息...
日期:05-29
一加 12 手机曝光:骁龙 8 Gen 3 芯片、5000mAh 电池「一加 8g 12g」
一加 12 手机是一加公司即将推出的新一代旗舰手机,预计于今年 12 月在中国推出,全球版将稍后发布。据爆料人士 @Yogesh Brar 称,一加 12 手机目前处于工程机形式,采用高通骁龙 8...
日期:05-27
奥克斯日用科技_5年坚守铸就奥克斯品牌日金口碑,互联网直卖暖动中国
  在这个寒冬,对于消费者来说,最大的温暖,就是拥有一台“品质好、价格优、服务好”的空调。   从11月下旬起,全国各地受到寒潮侵袭,特别是中东部地区气温“大跳水”,中央气象...
日期:09-19
360公司新闻_360公司荣获2011互联网大会公益企业奖
  2011年8月23日,2011(第十届)中国互联网大会在北京国际会议中心召开,本届中国互联网大会围绕“网络中国责任与活力”的主题,设置了“互联网与服务”、“互联网与先进文化”...
日期:07-22
苹果韩国总部遭反垄断机构突袭 涉及抽成过高调查「苹果公司被制裁」
凤凰网科技讯 北京时间9月30日消息,苹果公司位于首尔江南区的韩国总部本周遭到了韩国反垄断监管机构的突袭。此次突袭涉及韩国公平贸易委员会(KFTC)对苹果展开的滥用市场支配...
日期:10-03
高德打车宣布接入AutoX无人车 上海市民首批免费体验(高德打车预约用车)
  4月27日消息,聚合打车平台高德打车宣布接入AutoX无人车,并在上海联合启动了体验招募活动。即日起,上海市民使用高德地图,搜索“无人车”即可进入报名页面,报名通过且收...
日期:03-02
鸡蛋灌饼摊主撞脸周杰伦成网红:自我调侃“周饼伦”「鸡蛋灌饼摊主长相酷似周杰」
最近20年的华语流行音乐发展中,周杰伦靠着出色的才华留下了浓墨重彩的一笔。格力电器双十一周杰伦走红后,模仿其声音、发型乃至相貌的人层出不穷。当然,也有一些老天爷赏饭”的...
日期:10-16
天翼生态大会_第十一届天翼智能生态博览会开幕
  9月19日,由中国电信携手高通(Qualcomm)公司举办的第十一届天翼智能生态博览会在广州正式开幕。本届大会以“hello 5G,赋能未来”为主题,全面释放在5G新时代下,中国电信与全...
日期:04-03
高中的儿子玩手机和爸爸对抗「儿子沉迷手机爸爸帮请假“逼”他连玩17小时:效果很好」
3月9日消息,据时间视频报道,广东深圳一名男孩沉迷玩手机,爸爸反向教育监督他连续玩17个小时。爸爸黄先生称,他特意给儿子请假一天,让他自由玩手机。儿子玩累后被叫醒继续玩,最终连...
日期:03-09
和几个新锐品牌聊完,我们总结了降本增效的3大方向和10个建议_谈谈对新锐品牌的看法
声明:本文来自微信公众号“刀法研究所”(ID:DigipontClub),作者:Siete,,授权转载发布。“今年的情况就是,有钱的头部品牌靠着自己的现金流在运行,白牌因为够便宜过得也还行,难的是新...
日期:12-23
情人节的垃圾桶成了“致富秘笈”?能捡到鲜花蛋糕等:网友戏称拆“爱情盲盒”
今天是2月14日,所谓西方情人节。微信已经自觉地将红包上限调整到520元,方便情侣们表达爱意。除了发红包,情人节期间,礼物交换、浪漫大餐等同样是传统节目”。不过,在社交平台,一些...
日期:02-15
蛋仔派对回应无法登陆:正在抓紧时间修复「蛋仔派对bug」
4月6日 消息:6日早晨,有玩家报告称蛋仔派对无法登陆。未来手机厂商只剩三家华硕rtx3070售价对此,蛋仔派对官方回应称:由于当前服务器存在异常情况,部分蛋仔无法登录。项目组正...
日期:04-06
快手打击帐号买卖行为 累计处罚7.43万个违规帐号「快手账号存在违规行为」
10月9日 消息:今日,快手发布关于打击帐号买卖行为的专项治理公告第六期内容,2月至今已累计处罚7.43万个买卖帐号。公告称,在日常审核中平台发现,部分帐号运营者企图通过批量剪辑...
日期:10-11
无需实体SIM卡 小米海外推eSIM机型_小米电话卡 esim
据消息显示,本周,小米在海外市场推出了首款eSIM机型,小米12T Pro国际版,可以在不少欧洲国家使用。谈起eSIM,一些朋友并不陌生,现在市面上已经有不少支持eSIM的智能手表,也就是空中...
日期:10-18
英伟达发布入门级GPU争抢笔记本显卡市场,起售价2499元「英特尔推出新款游戏显卡,以性价比挑战英伟达」
记者 | 彭新9月28日,英特尔在其技术峰会上宣布,将于下个月开始销售面向游戏玩家的新款游戏显卡。该举动有望打破英伟达和AMD对于游戏图形处理器(GPU)市场的垄断。英特尔即将发售...
日期:10-03
50亿巨头紧急自救:ChatGPT正“杀死”自己
声明:本文来自微信公众号“铅笔道”(ID:pencilnews),作者:言荒,,授权转载发布。最近,美国教培上市公司Chegg公开表示:ChatGPT正在损害其业务增长。它的用户主要是学生。官方透露:今...
日期:05-06
传漾携手梅花网探讨电商营销思维模式的转变
  2011年5月27日晚,来自化妆品、快消、团购等领域的嘉宾,共同探讨在电商发展趋势下,电子商务精准智能营销的解决之道。       本次讲座由传漾科技和知名电商企业驴妈妈...
日期:07-28