[NLP] GPT 간단 정리

[NLP] GPT 간단 정리

카테고리 없음 2024. 6. 5. 21:23

GPT-1 : Improving Language Understanding by Generative Pre-Training

GPT-2 : Language Models are Unsupervised Multitask Learners

GPT-3 : Language Models are Few-Shot Learners

Instruct GPT : Training Language Models to follow instructions with human feedback

GPT-1 배경

- 이전까지 대부분의 딥러닝 모델은 label 이 필요한 supervised-learning 학습으로 만들어졌다.

- 언어 데이터는 대부분의 경우 label 이 없다.

- 따라서 unlabeled data를 사용하여 좋은 representation 을 선학습시키고 ( pre-training ), labeled data 로 task 에 적합한 마지막 layer 를 후학습을 하는 방법 ( fine-tuning )을 고려해보자

GPT -1 구조

- 12 층의 decoder block

- 117 M parameter

- data : 4GB

- 뉴스기사, 위키피디아, 소설책같은 단일 도메인에서 학습

< unsupervised pre-training >

- transformer 의 decoder 구조를 차용했다.

- encoder layer 가 빠졌기 때문에, cross multi-head attention layer 가 빠진다.

< task-specific supervised fine-tuning >

GPT-1 실험 결과

- NLI

- Question Answering 과 Commonsense Reasoning

- Semantic Similarity & Classification

- 왼쪽 그래프 : transfer 에 사용한 layer 수에 따른 성능

-> transfer 된 layer 수가 많을 수록 성능이 높다 -> pre-trained 된 정보를 많이 사용할 수록 fine-tuning 했을 때 성능이 좋다. -> 결과적으로 pre-trained model 은 down stream task 를 해결하는데 유용한 정보를 많이 가지고 있다는 것을 알 수 있다.

- 오른쪽 그래프 : pre-train 정도에 따른 zero shot 성능

-> pre-train 많이 할수록 성능이 높다 -> pre-train 과정이 down stream task 에 적합하다.

-> Transformer 구조가 LSTM 보다 탁월함을 알 수 있다.

GPT-1 결론 및 한계

- transformer decoder 구조를 활용했다는 것에 의의가 있다.

- 하지만 unsupervised learning 을 지향했음에도 fine-tuning 과정이 필요하다는 부분에서 한계가 있다.

GPT-2 변화

< GPT-2 는 GPT-1 과 몇가지 차이점을 제외하고는 구조적으로 비슷하다 >

1) Layer Normalization 의 위치가 Sub block 위에서 아래로 이동했다.

2) residual layer 의 깊이 N에 따라 1/sqrt(N) * weights 를 사용하여 가중치를 설정하였다.

3) parameter : 117M -> 1.5B, data : 4GB -> 40GB, vocabulary 가 50,275 개로 증가

4) decoder layer : 12 -> 48 , batch size : 64 -> 512, context size : 512 -> 1024

5) Reddit 에서 3 karma 이상을 받은 글, 기존 데이터에서 휴리스틱, 중복 제거하여 WebText dataset 구축하여 학습

6) token 화에 BPE 이용 -> OOV 문제에 더 유연하게 대처

GPT-2 결론 및 한계

- zero-shot 을 수행하는 모델을 선보였다. 다만 아직 실용적인 측면에서 사용할 수준은 아니다.

- 하지만 모델의 크기가 커지고 다량의 좋은 품질의 데이터를 학습시키면, BERT 와 같은 양방향 구조를 극복할 수 있다는 것을 보여주었다.

GPT-3

Instruct GPT

- reference :

https://velog.io/@jus6886/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-GPT1-GPT2-GPT3-%EC%B0%A8%EC%9D%B4%EC%99%80-%ED%95%9C%EA%B3%84

[논문리뷰] GPT1, GPT2, GPT3 차이와 한계

이전부터 BERT관련된 모델들을 리뷰하며,,, GPT와 비교하는 결과가 많았고 이전에 논문을 읽었지만 다시읽으며 GPT 모델 발전과정과 차이점을 서술해본다\~~!대부분의 딥러닝 task는 label을 만들기위

velog.io

https://lcyking.tistory.com/entry/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-GPT-1Improving-Language-Understandingby-Generative-Pre-Training%EC%9D%98-%EC%9D%B4%ED%95%B4

[논문리뷰] GPT-1(Improving Language Understandingby Generative Pre-Training)의 이해

Abstract https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf 자연어 분야는 본문 요약, Q & A, 유사성 평가, 문서 분류 등 여러 분야에서 발전해 왔습니다. unlabel 된 text는 아주 많지만, 특정한 task

lcyking.tistory.com

https://ffighting.net/deep-learning-paper-review/language-model/gpt-1/

GPT-1 논문 리뷰 - ChatGPT의 근간이 되는 논문 완벽하게 이해하기

GPT-1 논문을 리뷰합니다. 기존 방법의 문제점, GPT-1의 구조, Pretraining과 Fine Tuning 방법, Pretraining이 효과적인 이유, 실험 결과 등을 분석하고 GPT-1의 장단점과 의의에 대해 생각해봅니다.

ffighting.net

ABOUT ME

NLP 고민의 흔적 NLP 고민의 흔적

GPT-1 배경

GPT -1 구조

GPT-1 실험 결과

GPT-1 결론 및 한계

GPT-2 변화

GPT-2 결론 및 한계

GPT-3

Instruct GPT

티스토리툴바