#transformer
共 2 篇
- 《Attention Residuals》:让残差连接也注意力化
Kimi 团队 Attention Residuals 技术报告:为什么残差连接也该“注意力化”,以及 Full AttnRes / Block AttnRes 如何把这个想法做成可训练、可部署的系统
- 《Attention Is All You Need》:Transformer 的设计原点
拆解 Transformer 论文,附真实 Python 代码
共 2 篇
Kimi 团队 Attention Residuals 技术报告:为什么残差连接也该“注意力化”,以及 Full AttnRes / Block AttnRes 如何把这个想法做成可训练、可部署的系统
拆解 Transformer 论文,附真实 Python 代码