-
破坏字节AI训练的实习生斩获NeurIPS最佳论文,含金量如何?
最后更新: 2024-12-05 15:42:582024年12月3日,在这个离年末仅有27天的日子里,一件AI界颇具戏剧性的事件发生在字节跳动的一个前实习生身上。
北京大学研究生田柯宇凭借其在视觉生成领域的开创性工作获得了NeurIPS大会最佳论文奖。
在人工智能领域的学术殿堂中,NeurIPS的地位堪比文学界的诺贝尔奖。它创立于1987年,这个大会见证并推动了从简单神经网络到现代深度学习的整个革命进程。
但在颁奖当天,NeurIPS大概率会面对一张空椅子。因为获奖者田柯宇正面临着字节跳动八百万元的诉讼,原因是“涉嫌破坏其AI训练系统”。
公司的罪人和学术的天才
田柯宇的学术履历堪称完美:本科毕业于北京航空航天大学软件学院,随后进入北京大学攻读研究生,师从知名学者王立威教授。
他研究的重点是深度学习优化与算法,在攻读学位期间就已在多个顶级会议发表论文,包括ICLR 2023的Spotlight论文《Spark:Designing BERT for Convolutional Networks》,是其引用量最高的论文。
2021年,田柯宇开始了在字节跳动商业化技术部门的实习。在这里,他参与了一个雄心勃勃的项目:开发新一代的视觉生成模型。这个后来被命名为VAR(Visual Autoregressive Modeling)的项目,试图彻底改变AI生成图像的方式。
然而就在今年10月18日,网上开始流传字节实习生“投毒”大模型的聊天截图,给公司造成了极大损失。
这起事件的细节后续得到了更多披露。矛头很快指向了田柯宇。
一位在GitHub上发声的知情人士描绘了这场持续两个月的"数字破坏":"在这段时间里,他系统性地破坏集群代码,直接导致近30位同事的工作成果付诸东流,整整一个季度的心血化为乌有。所有的日志记录和系统审查都指向一个不容辩驳的事实。"
10月21日,界面新闻从知情人士处了解到,字节跳动内部已经调查明确此事为田姓实习生所为。
事件曝光后,这位北大高材生试图通过社交媒体自证清白,声称真正的破坏者另有其人。
网传的田柯宇在社群中的回应
这种"甩锅"行为很快就被接近字节跳动的人士予以驳斥。一位不愿透露姓名的字节内部人士向澎湃新闻透露了公司的处理逻辑:考虑到田柯宇的在读博士身份,公司最初选择了相对温和的处理方式,将其辞退并交由校方处理。这也在字节官方的回应中有所体现。
然而,事态在田柯宇的一系列反应中急转直下。他后续不仅多次公开否认指控,声称真正的攻击者是其他实习生,甚至报警称自己是造谣受害者。这种拒不认错、反咬一口的态度,最终耗尽了字节的耐心。"他完全没有意识到自己的错误性质和严重程度,"据澎湃新闻采访到内部人士说,"这种行为已经触及公司安全管理的红线。"最终,字节跳动决定通过法律途径追责,以儆效尤,防止类似事件重演。
据《南方都市报》11月27日报道,字节跳动起诉前实习生田某某篡改代码攻击公司内部模型训练一案,获北京市海淀区人民法院正式受理。字节跳动请求法院判令田某某赔偿公司侵权损失800万元及合理支出2万元,并公开赔礼道歉。
这也反证了当年字节极力否认的网传“1000万”的损失。
但也正是在字节工作期间,田柯宇写出了他的这篇含金量极高的获奖论文。论文的五位作者中,有四位都是来自于字节,而田柯宇是第一作者。
含金量极高的获奖论文
要理解NeurIPS最佳论文的分量,我们不妨回望2014年的一个历史性时刻。那年《Sequence to Sequence Learning with Neural Networks》都未获得最佳论文,仅仅进入了oral(口头演讲》环节。
这篇出自Ilya Sutskever、Oriol Vinyals和Quoc V. Le之手的论文不仅是一项学术成就,更像是为人工智能划出了一条全新的航道。
彼时还默默无闻的三位作者,如今已是AI领域的标志性人物:Sutskever成为了OpenAI的联合创始人,在GPT系列的开发中发挥核心作用;Vinyals在DeepMind主导了AlphaFold的突破;Le则在Google Brain推动了大语言模型的革新。他们的序列到序列学习框架,为今天ChatGPT、Claude这样的自回归语言模型奠定了理论基石。
而当年获得了最佳论文的李平教授,在回国后曾任百度首席架构师(T11)和百度研究院副院长。
NeurIPS的录用门槛极其严苛,获得这个奖的难度有多高呢?
据数据统计显示,以2023年为例,大会收到12,343篇投稿,最终接受率为26.1%。而能够入选口头报告(Oral)的论文更是凤毛麟角,通常不到1%。
在这样的背景下,VAR论文不仅入选Oral,还以近乎满分的评审分数(7,8,8,8)摘得最佳论文桂冠,其学术分量可见一斑。田柯宇北大同一实验室的同学对腾讯科技表示,此论文为第一篇来自中国大陆的NIPS最佳论文。
这篇名为《视觉自回归建模:基于下一尺度预测的可扩展图像生成》的论文,发布于2024年5月,它代表了AI系统生成图像方式的重大突破。
传统的图像生成方法就像在一页纸上从左到右、从上到下依次填写文字。VAR则采用了一种更接近人类直觉的方法:先勾勒出大致轮廓,再逐步添加细节。
具体来说,VAR包含两个训练阶段:首先通过多尺度VQVAE将图像编码为不同分辨率的标记映射,然后训练VAR Transformer来预测更高分辨率的细节。
这篇论文提出的视觉自回归建模(VAR)方法首次证明了GPT式模型可以在图像生成方面超越扩散模型——这是许多人认为不可能的里程碑。在ImageNet 256×256基准测试中,VAR将图像质量评估指标FID从18.65提升至1.73,生成速度提高了20倍。
更重要的是,VAR展现出此前只在大型语言模型中观察到的特征:清晰的幂律缩放和零样本泛化能力。
用更简单的话来说就是,系统随着规模增大而可预测地变得更好,并且能够处理它没有专门训练过的任务——这是更高级AI系统的标志。这些特性暗示了视觉AI可能与语言AI走向统一的道路。
目前,VAR的代码已在GitHub上开源,获得了超过4400颗星标。
从其技术价值和实际获得的荣誉来看,这篇论文和田柯宇的科研含金量都极高。然而,正是因此,他让前公司字节陷入了两难之境。
两难的字节
对字节跳动而言,田柯宇大模型“投毒”事件带来的打击远比表面看起来要严重。
更具戏剧性的是,当VAR论文在NeurIPS载誉而归时,字节跳动却陷入了进退维谷的尴尬境地。
作为一家渴望在AI领域与谷歌、OpenAI等全球巨头竞争的中国科技公司,字节跳动在人工智能基础研究上投入了数以亿计的资金。这项突破性研究确实诞生于字节实验室,但公司却无法在学术社区大张旗鼓地宣传这一成就——因为论文的第一作者正被公司起诉。
这种矛盾直指当前公司管理的某种困境:如何对有才干的科学家分配有效的资源,给予个体更有效的表彰?在愈发庞大的字节,这一命题也变得越来越难解。尤其在OpenAI、Anthropic等竞争对手普遍采取更开放研究政策的背景下,大公司很可能因为组织结构的问题在吸引和保留顶尖AI人才的战争中落败。
更令人深思的是,田柯宇能够如此轻易地破坏训练系统,暴露出字节在核心技术安全管控上的致命漏洞。这对于一家掌握着数亿用户数据、运营着多个AI大模型的科技巨头而言,无疑是一记响亮的警钟。
(AI未来指北特约作者 郝博阳)
- 原标题:荣誉与背叛:字节诉讼遇到NeurIPS最佳论文
- 责任编辑: 林铃锦 
-
苹果引入百度文心一言,客户隐私或成双方合作阻碍
2024-12-05 14:15 大公司 -
中国镓、锗、锑等出口管制已超一年,对美打击效果如何?
2024-12-05 10:06 中美关系 -
俄明确认定加密货币为“财产”,普京:可作为外汇替代方案
2024-12-05 09:58 疯狂比特币 -
又有大突破?OpenAI宣布未来3周连续举行12场直播
2024-12-05 09:57 大公司 -
商汤宣布组织调整结束,各生态企业将设独立CEO
2024-12-04 21:38 观网财经-科创 -
华为Mate70仍需抢购,“不像Mate60溢价强烈”
2024-12-04 18:01 观网财经-科创 -
“俄罗斯蔑视美国制裁,计划使用被禁的英伟达H100制造超算”
2024-12-04 16:01 观网财经-科创 -
-
美国对华新一轮芯片禁令拆解:核心是“三板斧”
2024-12-04 13:21 中美关系 -
传《星之破晓》项目解散,腾讯回应
2024-12-04 11:45 观网财经-互联网 -
韩国最大工会:发起无限期罢工,直至尹锡悦辞职
2024-12-04 11:40 观网财经-海外 -
腾讯:混元大模型上线文生视频功能
2024-12-03 21:38 观网财经-互联网 -
菜鸟速递接入东方甄选,提供次日达和送货上门服务
2024-12-03 21:35 观网财经-互联网 -
欧洲 “锂电之星”本可以不死,生路就在中国
2024-12-03 21:31 欧洲乱局 -
小米副总裁马骥离职,曾任互联网业务部总经理
2024-12-03 17:07 观网财经-科创 -
半导体公司集中回应美管制:核心供应链自主可控,影响有限
2024-12-03 16:15 观网财经-科创 -
全球最大钻石生产商戴比尔斯大幅降价,人工培育钻石概念股大涨
2024-12-03 15:28 观网财经-消费 -
苹果被控监视员工个人设备,严禁员工讨论薪酬
2024-12-03 13:56 -
拿友商大模型攒个局,周鸿祎为什么敢说“世界第一”?
2024-12-03 13:10 -
连续8年服务上马!京东物流成为世界大满贯候选赛事后勤保障首选
2024-12-03 12:55 观网财经-互联网
相关推荐 -
他无视美国威胁访华,“给世界作出示范” 评论 16这个全球最难进入的市场,中国企业正加速落地! 评论 47对美关税提至125%!商务部:将不再理会数字游戏 评论 542“对华关税实际是贸易禁令,但美国讨不到什么好处” 评论 188最新闻 Hot
-
他无视美国威胁访华,“给世界作出示范”
-
“美输华商品已无市场接受可能性”,又一例证?
-
60票赞成、25票反对,美参院批准了
-
这个全球最难进入的市场,中国企业正加速落地!
-
大部分货源都来自中国,亚马逊慌了
-
欧盟外交官:有了90天喘息期,我们应效法佛陀冷静备战
-
他访华前发声:特朗普虚张声势,反倒给我们机遇
-
“就不跪”
-
对美关税提至125%!商务部:将不再理会数字游戏
-
美学者:对后美国时代的秩序,有理由乐观
-
美国产Model S/X无法“订购新车”
-
“特朗普是将资本的血管砍断,可能加速自己的衰败”
-
现货黄金破3200美元/盎司创新高,券商提醒
-
“美国是只纸老虎,一戳就穿”,毛宁再转毛主席语录
-
菲律宾华人“钢铁大王”遭撕票遇害,我使馆发声
-
“对华关税实际是贸易禁令,但美国讨不到什么好处”
-