초거대 AI 구축을 위한 LLM 및 sLLM 동향

1.LLM과 sLLM 개념

■ 관련 용어

LLM(Large Language Model) 및 sLLM(small LLM)의 개념을 파악하기 위하여 관련된 태스크, 데이터, 모델 등을 아래와 같이 정리할 수 있음

-“업스트림 태스크 데이터” 용어가 너무 길기 때문에 “일반 데이터”로 명명함

– “다운스트림 태스크 데이터” 용어가 너무 길기 때문에 “도메인 데이터”로 명명함

● 모델의 가중치를 변경하는 학습 방법 및 모델은 아래와 같이 구분할 수 있음

2.LLM의 출현(emergence) 조건

LLM 모델의 출현(emergence) 또는 능력출현(emergent abilities)은 유도된 능력으로 해석될 수 있으며, 이는 개별 모델의 능력을 결합함으로써 더욱 강력한 새로운 기능이나 능력을 지닌 통합 모델이 되는 현상을 의미함. 더 많은 데이터가 통합됨으로써 새로운 능력이 암묵적으로 출현되는 것을 의미함
● LLM의 출현(emergence)이 언제 발현이 되는 지에 대한 연구가 2022년
“Emergent Abilities of Large Language Model”이란 주제로 Google
Research, Stanford University, UNC chapel Hill, DeepMind가 연구함

해당 논문을 참조하면(아래 그림)을 보면 대략 모델의 패러미터가 100B에 근접할수록
다양한 분야(Task)에서 성능이 향상되는 것을 알 수 있음

3. sLLM의 출현(emergent abilities)

● 최근 마이크로소프트의 연구를 보면 초거대 AI의 성능은 모델의 패러미터의 수보다는 훈련 데이터의 품질에 더 의존한다는 연구결과를 발표함.
마이크로소프트 리서치의 논문 “Textbooks Are All You Need”를 참조하면 트랜스포머 기반 1.3B 패러미터를 가진 모델을 웹으로부터 교과서 수준으로 잘 정제된 6B 토큰 데이터와 GPT-3.5로 생성된 1B 토큰 데이터를 사용하여 A100*8으로 4일 동안 학습시킨 phi-1 모델이 출현(emergent abilities)을 보여주고 있다고 설명함.

논문의 결과를 보면 1.3B에 해당하는 매개변수와 7B에 해당하는 데이터셋 크기로 학습시킨 phi-1 모델의 성능이(50.6%) 175B 매개변수 이상으로 학습시킨 GPT-3.5의 성능(47%)보다 좋은 결과를 보임.

● 이와 같이 최근에는 패러미터의 수가 무조건 큰 LLM을 그대로 사용하는 것보다는 패러미터의 수가 훨씬 적으면서 유사한 성능을 보여주는 small LLM에 대한 연구가 지속되고 있음

실제 LLaMa-13B는 GPT-3보다 10배 이상 작지만 더 뛰어난 성능을 보이고, LLaMa-65B는 Chinchilla-70B 및 PaLM-540B와 비슷한 성능 보여줌
이러한 특성으로 인해 국내외 초거대 AI 시장은 다양한 형태의 경량화 모델인 sLLM 모델 기반의 서비스 시장이 빠르게 확산되고 있는 상황임

LLM, sLLM

makeBCT

초거대 AI 구축을 위한 LLM 및 sLLM 동향

Leave a Reply Cancel reply

인기 글

BCT Ai Chatbot