-
[NLP] GPT 간단 정리카테고리 없음 2024. 6. 5. 21:23
GPT-1 : Improving Language Understanding by Generative Pre-Training
GPT-2 : Language Models are Unsupervised Multitask Learners
GPT-3 : Language Models are Few-Shot Learners
Instruct GPT : Training Language Models to follow instructions with human feedback
GPT-1 배경
- 이전까지 대부분의 딥러닝 모델은 label 이 필요한 supervised-learning 학습으로 만들어졌다.
- 언어 데이터는 대부분의 경우 label 이 없다.
- 따라서 unlabeled data를 사용하여 좋은 representation 을 선학습시키고 ( pre-training ), labeled data 로 task 에 적합한 마지막 layer 를 후학습을 하는 방법 ( fine-tuning )을 고려해보자
GPT -1 구조
- 12 층의 decoder block
- 117 M parameter
- data : 4GB
- 뉴스기사, 위키피디아, 소설책같은 단일 도메인에서 학습
< unsupervised pre-training >
- transformer 의 decoder 구조를 차용했다.
- encoder layer 가 빠졌기 때문에, cross multi-head attention layer 가 빠진다.
< task-specific supervised fine-tuning >
GPT-1 실험 결과
- NLI
- Question Answering 과 Commonsense Reasoning
- Semantic Similarity & Classification
- 왼쪽 그래프 : transfer 에 사용한 layer 수에 따른 성능
-> transfer 된 layer 수가 많을 수록 성능이 높다 -> pre-trained 된 정보를 많이 사용할 수록 fine-tuning 했을 때 성능이 좋다. -> 결과적으로 pre-trained model 은 down stream task 를 해결하는데 유용한 정보를 많이 가지고 있다는 것을 알 수 있다.
- 오른쪽 그래프 : pre-train 정도에 따른 zero shot 성능
-> pre-train 많이 할수록 성능이 높다 -> pre-train 과정이 down stream task 에 적합하다.
-> Transformer 구조가 LSTM 보다 탁월함을 알 수 있다.
GPT-1 결론 및 한계
- transformer decoder 구조를 활용했다는 것에 의의가 있다.
- 하지만 unsupervised learning 을 지향했음에도 fine-tuning 과정이 필요하다는 부분에서 한계가 있다.
GPT-2 변화
< GPT-2 는 GPT-1 과 몇가지 차이점을 제외하고는 구조적으로 비슷하다 >
1) Layer Normalization 의 위치가 Sub block 위에서 아래로 이동했다.
2) residual layer 의 깊이 N에 따라 1/sqrt(N) * weights 를 사용하여 가중치를 설정하였다.
3) parameter : 117M -> 1.5B, data : 4GB -> 40GB, vocabulary 가 50,275 개로 증가
4) decoder layer : 12 -> 48 , batch size : 64 -> 512, context size : 512 -> 1024
5) Reddit 에서 3 karma 이상을 받은 글, 기존 데이터에서 휴리스틱, 중복 제거하여 WebText dataset 구축하여 학습
6) token 화에 BPE 이용 -> OOV 문제에 더 유연하게 대처
GPT-2 결론 및 한계
- zero-shot 을 수행하는 모델을 선보였다. 다만 아직 실용적인 측면에서 사용할 수준은 아니다.
- 하지만 모델의 크기가 커지고 다량의 좋은 품질의 데이터를 학습시키면, BERT 와 같은 양방향 구조를 극복할 수 있다는 것을 보여주었다.
GPT-3
Instruct GPT
- reference :
[논문리뷰] GPT1, GPT2, GPT3 차이와 한계
이전부터 BERT관련된 모델들을 리뷰하며,,, GPT와 비교하는 결과가 많았고 이전에 논문을 읽었지만 다시읽으며 GPT 모델 발전과정과 차이점을 서술해본다\~~!대부분의 딥러닝 task는 label을 만들기위
velog.io
[논문리뷰] GPT-1(Improving Language Understandingby Generative Pre-Training)의 이해
Abstract https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 자연어 분야는 본문 요약, Q & A, 유사성 평가, 문서 분류 등 여러 분야에서 발전해 왔습니다. unlabel 된 text는 아주 많지만, 특정한 task
lcyking.tistory.com
https://ffighting.net/deep-learning-paper-review/language-model/gpt-1/
GPT-1 논문 리뷰 - ChatGPT의 근간이 되는 논문 완벽하게 이해하기
GPT-1 논문을 리뷰합니다. 기존 방법의 문제점, GPT-1의 구조, Pretraining과 Fine Tuning 방법, Pretraining이 효과적인 이유, 실험 결과 등을 분석하고 GPT-1의 장단점과 의의에 대해 생각해봅니다.
ffighting.net