#transformer
共 2 篇
- 《Attention Residuals》:讓殘差連接也注意力化
Kimi Team 的 Attention Residuals 技術報告:為什麼殘差連接也該「注意力化」,以及 Full AttnRes / Block AttnRes 如何把這個想法做成可訓練、可部署的系統
- 《Attention Is All You Need》:Transformer 的設計原點
拆解 Transformer 論文,附真實 Python 程式碼
共 2 篇
Kimi Team 的 Attention Residuals 技術報告:為什麼殘差連接也該「注意力化」,以及 Full AttnRes / Block AttnRes 如何把這個想法做成可訓練、可部署的系統
拆解 Transformer 論文,附真實 Python 程式碼