#scaling-laws
共 2 篇
- 《Training Compute-Optimal Large Language Models》:Chinchilla 改變了什麼
Chinchilla 論文:為什麼大多數大模型其實訓練不足,以及如何聰明地分配算力預算,附真實 Python 核心程式碼
- 《Scaling Laws for Neural Language Models》:規模的數學
規模的數學:為什麼更大的模型可預測地更好,附真實 Python 核心程式碼
共 2 篇
Chinchilla 論文:為什麼大多數大模型其實訓練不足,以及如何聰明地分配算力預算,附真實 Python 核心程式碼
規模的數學:為什麼更大的模型可預測地更好,附真實 Python 核心程式碼