#python
共 8 篇
- 《Attention Residuals》:讓殘差連接也注意力化
Kimi Team 的 Attention Residuals 技術報告:為什麼殘差連接也該「注意力化」,以及 Full AttnRes / Block AttnRes 如何把這個想法做成可訓練、可部署的系統
- 《Training Compute-Optimal Large Language Models》:Chinchilla 改變了什麼
Chinchilla 論文:為什麼大多數大模型其實訓練不足,以及如何聰明地分配算力預算,附真實 Python 核心程式碼
- 《Scaling Laws for Neural Language Models》:規模的數學
規模的數學:為什麼更大的模型可預測地更好,附真實 Python 核心程式碼
- 《Language Models are Few-Shot Learners》:GPT-3 與上下文學習
更大的模型,更善於從上下文中誘發能力,附真實 Python 程式碼
- 《BERT》:語言理解預訓練範式的確立
預訓練範式的確立,附真實 Python 程式碼
- 《Sequence to Sequence Learning with Neural Networks》:編碼器-解碼器範式的起點
編碼器-解碼器範式的確立,附真實 Python 程式碼
- 《Neural Machine Translation by Jointly Learning to Align and Translate》:Transformer 之前的注意力
注意力機制的起源,附真實 Python 程式碼
- 《Attention Is All You Need》:Transformer 的設計原點
拆解 Transformer 論文,附真實 Python 程式碼