#LLM
共 10 篇
- 《Externalization in LLM Agents》:LLM Agent 的认知外部化
这篇综述把 memory、skills、protocols 和 harness engineering 统一到一个视角里:Agent 的进步越来越像是在模型外部重写任务,而不只是让模型权重更强。
- 《AutoCodeBench》:当大语言模型自动生成代码基准
AutoCodeBench 论文里,为什么 Elixir 这一语言列值得注意,以及它如何引出自动生成多语言代码 benchmark 的难度等价讨论
- 《Attention Residuals》:让残差连接也注意力化
Kimi 团队 Attention Residuals 技术报告:为什么残差连接也该“注意力化”,以及 Full AttnRes / Block AttnRes 如何把这个想法做成可训练、可部署的系统
- 《Training Compute-Optimal Large Language Models》:Chinchilla 改变了什么
Chinchilla 论文:为什么 2022 年的大模型全都「喂少了」,以及算力预算到底该怎么分配,附真实 Python 核心代码
- 《Scaling Laws for Neural Language Models》:规模的数学
规模的数学:为什么更大的模型可预测地更强,附真实 Python 核心代码
- 《Language Models are Few-Shot Learners》:GPT-3 与上下文学习
更大的模型,更善于从上下文中诱发能力,附真实 Python 代码
- 《BERT》:语言理解预训练范式的确立
预训练范式的确立,附真实 Python 代码
- 《Sequence to Sequence Learning with Neural Networks》:编码器-解码器范式的起点
编码器-解码器范式的确立,附真实 Python 代码
- 《Neural Machine Translation by Jointly Learning to Align and Translate》:Transformer 之前的注意力
注意力机制的起源,附真实 Python 代码
- 《Attention Is All You Need》:Transformer 的设计原点
拆解 Transformer 论文,附真实 Python 代码