분류 전체보기
-
[NLP] RAG 란 무엇일까?카테고리 없음 2024. 9. 5. 12:05
1. RAG 란 무엇일까요? - Retrieval-Augmented Generation 의 약자 입니다.- 이름을 해석해보자면, 가져와서 -> 증강하고 -> 생성한다 입니다. - 무엇을 가져오고, 무엇을 생성하는 걸까요?- 아래 영상을 잠깐 봅시다. https://ai.meta.com/1319742961447503/videos/244800523626272/?idorvanity=712362492679853 2. RAG 는 왜 필요할까요? - LLM 은 parameter 안에 지식을 저장합니다.- 이 지식은 한번 학습되면 멈춰있기 때문에 정적 상태에 놓여 있습니다.- 지식이 수정되거나, 지식을 추가해야할 경우, 이 parameter를 수정하기 위해 재학습을 시켜야 합니다.- 하지만 LLM 을 학습시키는데에는..
-
[DL] L1 Loss, L2 Loss, SmoothL1Loss 비교하기카테고리 없음 2024. 8. 15. 12:59
- L1 Loss 와 L2 Loss 그리고 이 둘을 조합한 SmoothL1Loss 는 주로 회귀 문제에서 사용되는 loss function 이다.- 각각의 특징을 알아보도록 하자 1. L1 Loss ( MAE Loss ) : 예측값과 실제값의 차이의 절대값의 평균을 계산하는 손실 함수장점 : 데이터에 노이즈가 많은 경우, 노이즈의 영향을 덜 받아, 예측이 보다 안정적일 수 있다.단점 : 예측값과 실제값이 일치하는 구간에서 미분이 불가능하다. 그렇다면 미분이 불가능한 점이 미치는 영향은 무엇일까?미분의 좌극한과 우극한이 다르게 정의된다. ( 1 or -1 )이로 인해 학습 방향이 불분명해질 수 있고, 혹은 미분값이 0이 되어 업데이트가 이루어지지 않을 수도 있다. 미분값이 0 이 되어 업데이트가 이루어지..
-
[DL] Cross-Entropy 이해하기카테고리 없음 2024. 7. 17. 18:40
1. 요약 - cross-entropy 의 식은 아래와 같다.- 의미 : 확률분포 P, Q 의 차이를 나타낸다. - 내용1 : 수식이 왜 위와 같은 형태를 띄는가 1) 정보량 2) 엔트로피- 내용2 : 수식은 어떻게 두 분포의 차이를 드러내는가- 내용3 : 분류 문제에 MSE 대신에 cross-entropy 를 적용하는 이유 2. 정보량 - 정보량이란 무엇인가?1) 직관적 설명- 놀람의 정도, 발생 확률- 사건의 발생 확률이 낮을수록, 놀람의 정도는 높아지기에, 사건은 높은 정보량을 갖고 있다고 할 수 있다. 2) 정보이론을 통한 설명 ( 해당 설명은 서동해님의 블로그를 인용합니다, 너무 완벽해서 더 잘 정리할 수가 없습니다. ) ( https://blog..
-
[CV] DeiT 논문 정리카테고리 없음 2024. 6. 20. 09:48
논문 제목 : Training data-efficient image transformers & distillation through attentionhttps://arxiv.org/pdf/2012.12877 배경 - Image Classification과 같은 Computer Vision 분야에 transformer 가 도입되기 시작했다.- ViT 논문으로 많은 양의 데이터, 많은 수의 파라미터, 많은 컴퓨팅 자원이 있다면 Transformer 기반의 모델이 CNN 기반의 모델과 유사한 성능을 보인다는 것이 보여졌다.- 하지만 vision transformer가 성능을 보이기 위해서는 수억장의 train image 와 오랜 시간이 필요하다.- 본 논문에서는 적은 컴퓨팅 자원과 적은 수의 데이터로 SO..
-
[NLP] GPT 간단 정리카테고리 없음 2024. 6. 5. 21:23
GPT-1 : Improving Language Understanding by Generative Pre-TrainingGPT-2 : Language Models are Unsupervised Multitask LearnersGPT-3 : Language Models are Few-Shot LearnersInstruct GPT : Training Language Models to follow instructions with human feedback GPT-1 배경- 이전까지 대부분의 딥러닝 모델은 label 이 필요한 supervised-learning 학습으로 만들어졌다.- 언어 데이터는 대부분의 경우 label 이 없다.- 따라서 unlabeled data를 사용하여 좋은 representation..
-
[NLP] Transformer 기반의 LLM 소개카테고리 없음 2024. 6. 4. 14:39
- 입력을 받아 표현(representation) 혹은 특징(feature)을 만듬- Encoder 모델은 입력을 이해하는데 최적화- 입력에 대한 이해가 필요한 task에 사용 :-> 문장 분류, 개체 인식, 질문 답변 - BERT - ROBERTa- ALBERT- Distill BERT- ELECTRA - 입력이 필요한 생성 task에 적합하다.- 번역, 요약 - BART- T5 - Autoregressive : 이전 단어들이 주어진 시퀀스에서 다음의 단어를 예측하는 방식으로 작동- 생성 task에 적합 - GPT-1, 2, 3, 4- Instruct GPT- ChatGPT- LLaMA- BARD - referencehttps://moon-walker.medium.com/transformer%E..
-
[NLP] GLUE 데이터셋 구성카테고리 없음 2024. 5. 28. 16:36
1) CoLA ( The Corpus of Linguistic Acceptability ) : 책과 신문 기사에서 가져온 데이터로, 문법적으로 옳은지 틀린지를 구분했다.- 데이터 수 : 10.7k- class : 2 ( acceptable : unacceptable = 70% : 30% ) 2) MNLI ( Multi-Genre Natural Language Inference Corpus ) : 연설, 소설, 정부 보고서 등 다양한 출처로 구성. 전제(premise)와 가설(hypothesis)로 구성. 전제가 가설을 포함 (함의,entailment), 가설에 반하는지(모순,contradiction), 관련이 없는지(중립, neutral)- 데이터 수 : 432k- class 2 : ( 0 : 1 : ..
-
[DL] Skip-Connection 의 수학적 의미카테고리 없음 2024. 5. 23. 11:24
해당 글은 다음의 영상을 참고하여 작성하였습니다.https://www.youtube.com/watch?v=Fypk0ec32BU - Skip-Connection은 층을 깊이 쌓을 수 있게 해준다. -> 왜 그럴까? -> Gradient Vanishing 문제 해결 이외의 관점을 다루어보자. - 가정 ( 정설 ) : 층이 매우 깊다면, 입력값을 차근차근 조금씩 바꾸어나가는 것이 이상적이다.- ex) 잘 학습된 ResNet-50 은 layer 34->36 으로 넘어갈 때 값이 크게 바뀌지 않을 것이다.- H(x) 를 x 를 layer 에 통과시켜 만들고자 하는 값이라고 하면, - 이 조건에서 x -> H(x) 를 만들고자 할 때, 두 경우를 생각해보자 ( H(x)는 x 와 거의 같다 )1) skip-con..