26uuu.com
梦晨 发自 凹非寺量子位 | 公众号 QbitAI男同 影片
大模子的中枢组件把稳力机制,究竟如何降生的?
可能也曾有东说念主知说念,它并非2017年Transformer开山论文《Attention is all you need》开创,而是来自2014年Bengio试验室的另一篇论文。
当今,这项斟酌背后更多细节被公开了!来自Karpathy与着实作家两年前的邮件往返,引起了许多商榷。

到当今已有整10年历史。

一作Dzmitry Bahdanau,其时是Bengio试验室的一位实习生,在实习只剩5周时灵光一现建议了一个简化决议,十分于已毕了对角把稳力。
Pytorch等经典代码中,恰是把把稳力称为Bahdanau Attention,还保留着他孝顺的陈迹。

Karpathy之是以当今拿起这段旧事,是因为最近社区中流传着一些歪曲,认为Transformer作家受到科幻电影《驾临》中外星东说念主交流姿色的启发。
但其实Transformer作家中的Illia Polosukhin仅仅很久以后选用采访时用《驾临》来类比。

着实2014年Attention机制的灵感,其实来自东说念主类翻译笔墨经由中来去看材料的行为。
除了清醒这少量除外,这段真实故事中还有更多亮点,对今天的斟酌仍有许多启发。
2014年的Attention,与同期Alex Graves论文Neural Turing Machines,和Jason Weston论文Memory Networks有访佛之处,但这些斟酌起点和动机不同。
讲明在期间蕴蓄的临界点上,不同斟酌者常会独随即建议相同的窜改。
本来的名字“RNNSearch”不够直不雅,其后在Yoshua Bengio的建议下改为“把稳力”,更能收拢中枢观点。
原来起个好名字,简直不错提高期间的传播和影响力。
有网友看过这个故事之后,景仰这封邮件“应该放在算计机科学博物馆”。
给这些改变宇宙的发现简直老是从试验开动的,何况莫得东说念主着实提前知说念它们的结局。

以下为Dzmitry Bahdanau发给Karpathy的原始邮件全文翻译,邮件写于2022年。
10年前,Attention着实的降生
嗨,Andrej。
很欢乐为您讲演8年前发生的故事!
我在Jakobs University(德国雅各布大学)奴隶Herbert Jaeger完成了硕士一年齿的学业后,来到Yoshua(图灵奖得主Yoshua Bengio)的试验室实习。
我向Yoshua默示我景象从事任何职责,他便让我参与机器翻译模式,与Kyunghyun Cho及团队伸开兼并。
我对将一系列单词塞进向量的想法极度怀疑,但我也简直很想要一个博士学位的offer,是以我卷起袖子,开动作念我擅长的事情——编写代码、开发Bug等等。
在某个期间,我对团队正在进行的职责有了裕如的了解,Yoshua邀请我攻读博士学位。2014年是个好时间,只需这些职责就足以让我读博了——好意思好的旧时光!
我很欢乐,我以为是期间享受乐趣并进展创造力了。
于是我开动念念考如何幸免Encoder-Decoder RNN之间的信息瓶颈。
我的第一个想法是树立一个带有两个“光标”的模子:一个在源序列中出动,由BiRNN编码;另一个在方针序列中出动。光标轨迹将使用动态揣摸打算边缘化。
Kyunghyun Cho认为这十分于Alex Graves的RNN Transducer模子。之后,我可能也读了Graves的手写识别论文,但这种行为对于机器翻译来说似乎不太合乎。
上述带有光方针行为在我实习的剩余5周内很难已毕,是以我尝试了更浅薄的行为——两个光标同期同步出动,本色上十分于硬编码的对角把稳力。
这种行为有点效果,但败落优雅。
是以有一天我有了新的想法,让Decorder RNN学会在源序列中搜索遗弃光方针位置。这在一定进程上受到了我中学英语学习中翻译老成的启发。
在翻译时,你的眼神会在源序列和方针序列之间来去出动,我将软搜索默示为softmax,然后对BiRNN 景象进行加权平均。从第一次尝试就效果很好,我极度容许。
我将这个架构称为RNNSearch,在1个GPU上运行。由于咱们知说念谷歌的Ilya(OpenAI前首席科学家Ilya Sutskever)团队使用8个GPU的LSTM模子在某些方面当先于咱们,是以咱们马上在ArXiV上发表了一篇论文。
其后发现,这个名字并不好。更好的名字(把稳力)是Yoshua在临了的一次修改中添加到论断中的。
直不雅地说,这在解码器中已毕了一种把稳力机制,解码器决定源语句的哪些部分需要关怀。通过让解码用具有把稳力机制,咱们松开了编码器将源语句中的总计信息编码为固定长度向量的包袱。通过这种新行为,信息不错漫衍在总计这个词注目序列中,解码器不错相应地有遴荐地检索。

一个半月后,咱们看到了Alex Graves的论文。照实是实足斟酌的想法,尽管他的动机实足不同。

在咱们这边,发明新算法是需求驱动的。我猜在他那处,是迷惑神经门户和象征门户的洪志?Jason Weston团队的Memory Networks论文也有访佛的机制。

我莫得料猜度把稳力不错在更低的档次上使用,看成默示学习的核默算法。
但当我看到Transformer论文时,我立即向试验室的共事晓示:RNN已死。
回到您最初的问题:在蒙特利尔Yoshua的试验室中“可微且数据依赖的加权平均”的发明与神经图灵机、Memory Networks以及90年代(以至 70 年代;但我无法提供联结)的一些联系剖判科学论文无关。
这是Yoshua推进试验室追求志在千里的教授后果,Kyunghyun Cho在惩处由低级博士生和实习生构成的大型机器翻译模式方面的出色手段,以及我我方多年来在编程竞赛中检会出的创造力和编程手段的适度。
即使我我方、Alex Graves和这个故事中的其他扮装其时莫得从事深度学习职责,离这个想法出现也不会太远了。
把稳力仅仅深度学习中已毕机动空间迷惑的当然姿色,这简直是一个可想而知的想法,一直在恭候GPU裕如快,让东说念主们有能源并矜重对待深度学习斟酌。
自从我意志到这少量,我对AI的大志向等于启动像机器翻译那样令东说念主咋舌的诓骗模式。
精熟的研发职责不错为基础期间的超越作念出更多孝顺,而不是咱们时时认为“着实的”东说念主工智能斟酌的总计花哨的表面。
就酱!极度意思听到更多对于您的AI教悔模式的音讯(我从 Harm de Vries 那里听到了一些外传)。
干杯,Dima
One More Thing
Karpathy景仰,有点惊诧这篇着实的把稳力发源论文莫得取得裕如多的关怀。
自从Attention is all you need一飞冲天之后,大家意志到给论文起一个好名字对期间传播的影响,后头的论文标题就放飞了。

除了扎堆效法xx is all you need除外,最近以至还出现了Taylor Unswift。
讲的是把模子权重转化成泰勒级数的参数,来保护已发布模子的总计权并提神被奢华。

就,emmm……

提到的论文:
Neural Machine Translation by Jointly Learning to Align and Translate
https://arxiv.org/abs/1409.0473
Attention is All You Need
https://arxiv.org/abs/1706.03762
Neural Turing Machines
https://arxiv.org/abs/1410.5401
Generating Sequences With Recurrent Neural Networks
https://arxiv.org/abs/1308.0850
波比在线Memory Networks
https://arxiv.org/abs/1410.3916
Sequence to Sequence Learning with Neural Networks
https://arxiv.org/abs/1409.3215
Taylor Unswift:
https://arxiv.org/abs/2410.05331
参考联结:[1]https://x.com/karpathy/status/1864028921664319735