초거대 AI 구축을 위한 LLM 및 sLLM 동향

1.LLM과 sLLM 개념

■ 관련 용어

LLM(Large Language Model) 및 sLLM(small LLM)의 개념을 파악하기 위하여 관련된 태스크, 데이터, 모델 등을 아래와 같이 정리할 수 있음

-“업스트림 태스크 데이터” 용어가 너무 길기 때문에 “일반 데이터”로 명명함

– “다운스트림 태스크 데이터” 용어가 너무 길기 때문에 “도메인 데이터”로 명명함

● 모델의 가중치를 변경하는 학습 방법 및 모델은 아래와 같이 구분할 수 있음

2.LLM의 출현(emergence) 조건

LLM 모델의 출현(emergence) 또는 능력출현(emergent abilities)은 유도된 능력으로 해석될 수 있으며, 이는 개별 모델의 능력을 결합함으로써 더욱 강력한 새로운 기능이나 능력을 지닌 통합 모델이 되는 현상을 의미함. 더 많은 데이터가 통합됨으로써 새로운 능력이 암묵적으로 출현되는 것을 의미함
● LLM의 출현(emergence)이 언제 발현이 되는 지에 대한 연구가 2022년
“Emergent Abilities of Large Language Model”이란 주제로 Google
Research, Stanford University, UNC chapel Hill, DeepMind가 연구함

  • 해당 논문을 참조하면(아래 그림)을 보면 대략 모델의 패러미터가 100B에 근접할수록
    다양한 분야(Task)에서 성능이 향상되는 것을 알 수 있음

3. sLLM의 출현(emergent abilities)

● 최근 마이크로소프트의 연구를 보면 초거대 AI의 성능은 모델의 패러미터의 수보다는 훈련 데이터의 품질에 더 의존한다는 연구결과를 발표함.
마이크로소프트 리서치의 논문 “Textbooks Are All You Need”를 참조하면 트랜스포머 기반 1.3B 패러미터를 가진 모델을 웹으로부터 교과서 수준으로 잘 정제된 6B 토큰 데이터와 GPT-3.5로 생성된 1B 토큰 데이터를 사용하여 A100*8으로 4일 동안 학습시킨 phi-1 모델이 출현(emergent abilities)을 보여주고 있다고 설명함.

논문의 결과를 보면 1.3B에 해당하는 매개변수와 7B에 해당하는 데이터셋 크기로 학습시킨 phi-1 모델의 성능이(50.6%) 175B 매개변수 이상으로 학습시킨 GPT-3.5의 성능(47%)보다 좋은 결과를 보임.

● 이와 같이 최근에는 패러미터의 수가 무조건 큰 LLM을 그대로 사용하는 것보다는 패러미터의 수가 훨씬 적으면서 유사한 성능을 보여주는 small LLM에 대한 연구가 지속되고 있음

  • 실제 LLaMa-13B는 GPT-3보다 10배 이상 작지만 더 뛰어난 성능을 보이고, LLaMa-65B는 Chinchilla-70B 및 PaLM-540B와 비슷한 성능 보여줌
  • 이러한 특성으로 인해 국내외 초거대 AI 시장은 다양한 형태의 경량화 모델인 sLLM 모델 기반의 서비스 시장이 빠르게 확산되고 있는 상황임

Leave a Reply

Your email address will not be published. Required fields are marked *

인기 글

Ubuntu 22.04 LTS에 Python 3.8 or 3.9 설치 방법
서버 : Vultr 클라우드OS: Ubuntu 22.04 LTS사용자 계정 생성하여 설치 진행함1. Start with the system updatesudo apt update...
오라클 클라우드 OCI 가입 드디어 성공 했습니다 (상세 후기)
2023년 2월 16일에 ‘오라클 클라우드 지급 검증 실패 글‘을 남긴 적이 있습니다.그 때 검색을 통해 해결 방법을 찾아 보았고, 당시 성공했던 분들의...
AWS 인스턴스 유형 변경 방법
AWS 인스턴스 유형을 변경하기 위한 방법에는 다음 2가지가 있습니다.   1. 첫 번째 방법 AMI 이미지 생성 후 해당 이미지를 복원하여 신규 EC2 인스턴스를 생성하는...
WSL2/Ubuntu 22.04 LTS에 Anaconda 설치 
WSL2/Ubuntu 환경에서 Python 버전별로 가상환경을 만드는 방법 중 그나마 Anaconda 방법이 좋은 것 같네요. 설치 방법은 간단합니다.1. apt update사용자...
카페24 호스팅에서 카페24 호스팅으로 워드프레스 이전 방법
카페24 호스팅에서 운영중인 워드프레스 홈페이지가 있습니다. 부득이한 사정으로 현재 운영중인 워드프레스 홈페이지를 카페24의 신규 계정으로 모든 것을 똑같이 이관해야 합니다. 효과적인...