#python

共 8 篇

2026-03-19
《Attention Residuals》：讓殘差連接也注意力化
Kimi Team 的 Attention Residuals 技術報告：為什麼殘差連接也該「注意力化」，以及 Full AttnRes / Block AttnRes 如何把這個想法做成可訓練、可部署的系統

#technical-report-reading #residual-connections #transformer #AI #LLM #python
2026-03-11
《Training Compute-Optimal Large Language Models》：Chinchilla 改變了什麼
Chinchilla 論文：為什麼大多數大模型其實訓練不足，以及如何聰明地分配算力預算，附真實 Python 核心程式碼

#paper-reading #chinchilla #scaling-laws #AI #LLM #python
2026-03-01
《Scaling Laws for Neural Language Models》：規模的數學
規模的數學：為什麼更大的模型可預測地更好，附真實 Python 核心程式碼

#paper-reading #scaling-laws #AI #LLM #python
2026-02-11
《Language Models are Few-Shot Learners》：GPT-3 與上下文學習
更大的模型，更善於從上下文中誘發能力，附真實 Python 程式碼

#paper-reading #gpt-3 #AI #LLM #python
2026-01-31
《BERT》：語言理解預訓練範式的確立
預訓練範式的確立，附真實 Python 程式碼

#paper-reading #bert #AI #LLM #python
2026-01-24
《Sequence to Sequence Learning with Neural Networks》：編碼器-解碼器範式的起點
編碼器-解碼器範式的確立，附真實 Python 程式碼

#paper-reading #seq2seq #AI #LLM #python
2026-01-11
《Neural Machine Translation by Jointly Learning to Align and Translate》：Transformer 之前的注意力
注意力機制的起源，附真實 Python 程式碼

#paper-reading #attention #AI #LLM #python
2026-01-06
《Attention Is All You Need》：Transformer 的設計原點
拆解 Transformer 論文，附真實 Python 程式碼

#paper-reading #transformer #AI #LLM #python