#python
총 8개
- 《Attention Residuals》: 잔차 연결도 어텐션처럼 만들기
Kimi Team의 Attention Residuals 기술 리포트 읽기: 왜 residual connection도 attention처럼 바뀌어야 하는지, 그리고 Full AttnRes / Block AttnRes가 그 아이디어를 어떻게 학습 가능하고 배포 가능한 시스템으로 만드는지
- 《Training Compute-Optimal Large Language Models》: Chinchilla가 바꾼 것
Chinchilla 논문 — 왜 대부분의 대형 모델이 과소 학습되었는지, 그리고 컴퓨팅 예산을 현명하게 쓰는 법, 실제 Python 코드 예시 포함
- 《Scaling Laws for Neural Language Models》: 규모의 수학
규모의 수학 — 더 큰 모델이 예측 가능하게 더 나은 이유, 실제 Python 코드 예시 포함
- 《Language Models are Few-Shot Learners》: GPT-3와 인컨텍스트 학습
더 큰 모델, 컨텍스트에서 더 잘 능력을 이끌어내다, 실제 Python 코드 예시 포함
- 《BERT》: 언어 이해 사전학습 패러다임의 확립
사전학습 패러다임의 확립, 실제 Python 코드 예시 포함
- 《Sequence to Sequence Learning with Neural Networks》: 인코더-디코더 패러다임의 출발점
인코더-디코더 패러다임의 확립, 실제 Python 코드 예시 포함
- 《Neural Machine Translation by Jointly Learning to Align and Translate》: Transformer 이전의 어텐션
어텐션 메커니즘의 기원, 실제 Python 코드 예시 포함
- 《Attention Is All You Need》: Transformer의 설계 원점
Transformer 논문 연구 노트, 실제 Python 코드 예시 포함