#LLM

共 10 篇

2026-05-13
《Externalization in LLM Agents》：LLM Agent 的认知外部化
这篇综述把 memory、skills、protocols 和 harness engineering 统一到一个视角里：Agent 的进步越来越像是在模型外部重写任务，而不只是让模型权重更强。

#paper-reading #agents #externalization #harness-engineering #memory #skills #protocols #LLM
2026-04-19
《AutoCodeBench》：当大语言模型自动生成代码基准
AutoCodeBench 论文里，为什么 Elixir 这一语言列值得注意，以及它如何引出自动生成多语言代码 benchmark 的难度等价讨论

#paper-reading #autocodebench #elixir #code-generation #benchmark #LLM
2026-03-19
《Attention Residuals》：让残差连接也注意力化
Kimi 团队 Attention Residuals 技术报告：为什么残差连接也该“注意力化”，以及 Full AttnRes / Block AttnRes 如何把这个想法做成可训练、可部署的系统

#technical-report-reading #residual-connections #transformer #AI #LLM #python
2026-03-11
《Training Compute-Optimal Large Language Models》：Chinchilla 改变了什么
Chinchilla 论文：为什么 2022 年的大模型全都「喂少了」，以及算力预算到底该怎么分配，附真实 Python 核心代码

#paper-reading #chinchilla #scaling-laws #AI #LLM #python
2026-03-01
《Scaling Laws for Neural Language Models》：规模的数学
规模的数学：为什么更大的模型可预测地更强，附真实 Python 核心代码

#paper-reading #scaling-laws #AI #LLM #python
2026-02-11
《Language Models are Few-Shot Learners》：GPT-3 与上下文学习
更大的模型，更善于从上下文中诱发能力，附真实 Python 代码

#paper-reading #gpt-3 #AI #LLM #python
2026-01-31
《BERT》：语言理解预训练范式的确立
预训练范式的确立，附真实 Python 代码

#paper-reading #bert #AI #LLM #python
2026-01-24
《Sequence to Sequence Learning with Neural Networks》：编码器-解码器范式的起点
编码器-解码器范式的确立，附真实 Python 代码

#paper-reading #seq2seq #AI #LLM #python
2026-01-11
《Neural Machine Translation by Jointly Learning to Align and Translate》：Transformer 之前的注意力
注意力机制的起源，附真实 Python 代码

#paper-reading #attention #AI #LLM #python
2026-01-06
《Attention Is All You Need》：Transformer 的设计原点
拆解 Transformer 论文，附真实 Python 代码

#paper-reading #transformer #AI #LLM #python