#python

총 8개

2026-03-19
《Attention Residuals》: 잔차 연결도 어텐션처럼 만들기
Kimi Team의 Attention Residuals 기술 리포트 읽기: 왜 residual connection도 attention처럼 바뀌어야 하는지, 그리고 Full AttnRes / Block AttnRes가 그 아이디어를 어떻게 학습 가능하고 배포 가능한 시스템으로 만드는지

#technical-report-reading #residual-connections #transformer #AI #LLM #python
2026-03-11
《Training Compute-Optimal Large Language Models》: Chinchilla가 바꾼 것
Chinchilla 논문 — 왜 대부분의 대형 모델이 과소 학습되었는지, 그리고 컴퓨팅 예산을 현명하게 쓰는 법, 실제 Python 코드 예시 포함

#paper-reading #chinchilla #scaling-laws #AI #LLM #python
2026-03-01
《Scaling Laws for Neural Language Models》: 규모의 수학
규모의 수학 — 더 큰 모델이 예측 가능하게 더 나은 이유, 실제 Python 코드 예시 포함

#paper-reading #scaling-laws #AI #LLM #python
2026-02-11
《Language Models are Few-Shot Learners》: GPT-3와 인컨텍스트 학습
더 큰 모델, 컨텍스트에서 더 잘 능력을 이끌어내다, 실제 Python 코드 예시 포함

#paper-reading #gpt-3 #AI #LLM #python
2026-01-31
《BERT》: 언어 이해 사전학습 패러다임의 확립
사전학습 패러다임의 확립, 실제 Python 코드 예시 포함

#paper-reading #bert #AI #LLM #python
2026-01-24
《Sequence to Sequence Learning with Neural Networks》: 인코더-디코더 패러다임의 출발점
인코더-디코더 패러다임의 확립, 실제 Python 코드 예시 포함

#paper-reading #seq2seq #AI #LLM #python
2026-01-11
《Neural Machine Translation by Jointly Learning to Align and Translate》: Transformer 이전의 어텐션
어텐션 메커니즘의 기원, 실제 Python 코드 예시 포함

#paper-reading #attention #AI #LLM #python
2026-01-06
《Attention Is All You Need》: Transformer의 설계 원점
Transformer 논문 연구 노트, 실제 Python 코드 예시 포함

#paper-reading #transformer #AI #LLM #python