#paper-reading
共 9 篇
- 《Externalization in LLM Agents》:LLM Agent 的認知外部化
這篇綜述把 memory、skills、protocols 和 harness engineering 放進同一個視角:Agent 的進步越來越像是在模型外部重寫任務,而不只是讓模型權重更強。
- 《AutoCodeBench》:當大語言模型自動生成程式碼基準
AutoCodeBench 論文裡,為什麼 Elixir 這一語言欄值得注意,以及它如何引出自動生成多語言程式碼 benchmark 的難度等價討論
- 《Training Compute-Optimal Large Language Models》:Chinchilla 改變了什麼
Chinchilla 論文:為什麼大多數大模型其實訓練不足,以及如何聰明地分配算力預算,附真實 Python 核心程式碼
- 《Scaling Laws for Neural Language Models》:規模的數學
規模的數學:為什麼更大的模型可預測地更好,附真實 Python 核心程式碼
- 《Language Models are Few-Shot Learners》:GPT-3 與上下文學習
更大的模型,更善於從上下文中誘發能力,附真實 Python 程式碼
- 《BERT》:語言理解預訓練範式的確立
預訓練範式的確立,附真實 Python 程式碼
- 《Sequence to Sequence Learning with Neural Networks》:編碼器-解碼器範式的起點
編碼器-解碼器範式的確立,附真實 Python 程式碼
- 《Neural Machine Translation by Jointly Learning to Align and Translate》:Transformer 之前的注意力
注意力機制的起源,附真實 Python 程式碼
- 《Attention Is All You Need》:Transformer 的設計原點
拆解 Transformer 論文,附真實 Python 程式碼