makeBCT

#AI #OpenAI #Chatbot #Cloud #WordPress

초거대 AI 구축을 위한 LLM 및 sLLM 동향

1.LLM과 sLLM 개념

■ 관련 용어

LLM(Large Language Model) 및 sLLM(small LLM)의 개념을 파악하기 위하여 관련된 태스크, 데이터, 모델 등을 아래와 같이 정리할 수 있음

-“업스트림 태스크 데이터” 용어가 너무 길기 때문에 “일반 데이터”로 명명함

– “다운스트림 태스크 데이터” 용어가 너무 길기 때문에 “도메인 데이터”로 명명함

● 모델의 가중치를 변경하는 학습 방법 및 모델은 아래와 같이 구분할 수 있음

2.LLM의 출현(emergence) 조건

LLM 모델의 출현(emergence) 또는 능력출현(emergent abilities)은 유도된 능력으로 해석될 수 있으며, 이는 개별 모델의 능력을 결합함으로써 더욱 강력한 새로운 기능이나 능력을 지닌 통합 모델이 되는 현상을 의미함. 더 많은 데이터가 통합됨으로써 새로운 능력이 암묵적으로 출현되는 것을 의미함
● LLM의 출현(emergence)이 언제 발현이 되는 지에 대한 연구가 2022년
“Emergent Abilities of Large Language Model”이란 주제로 Google
Research, Stanford University, UNC chapel Hill, DeepMind가 연구함

  • 해당 논문을 참조하면(아래 그림)을 보면 대략 모델의 패러미터가 100B에 근접할수록
    다양한 분야(Task)에서 성능이 향상되는 것을 알 수 있음

3. sLLM의 출현(emergent abilities)

● 최근 마이크로소프트의 연구를 보면 초거대 AI의 성능은 모델의 패러미터의 수보다는 훈련 데이터의 품질에 더 의존한다는 연구결과를 발표함.
마이크로소프트 리서치의 논문 “Textbooks Are All You Need”를 참조하면 트랜스포머 기반 1.3B 패러미터를 가진 모델을 웹으로부터 교과서 수준으로 잘 정제된 6B 토큰 데이터와 GPT-3.5로 생성된 1B 토큰 데이터를 사용하여 A100*8으로 4일 동안 학습시킨 phi-1 모델이 출현(emergent abilities)을 보여주고 있다고 설명함.

논문의 결과를 보면 1.3B에 해당하는 매개변수와 7B에 해당하는 데이터셋 크기로 학습시킨 phi-1 모델의 성능이(50.6%) 175B 매개변수 이상으로 학습시킨 GPT-3.5의 성능(47%)보다 좋은 결과를 보임.

● 이와 같이 최근에는 패러미터의 수가 무조건 큰 LLM을 그대로 사용하는 것보다는 패러미터의 수가 훨씬 적으면서 유사한 성능을 보여주는 small LLM에 대한 연구가 지속되고 있음

  • 실제 LLaMa-13B는 GPT-3보다 10배 이상 작지만 더 뛰어난 성능을 보이고, LLaMa-65B는 Chinchilla-70B 및 PaLM-540B와 비슷한 성능 보여줌
  • 이러한 특성으로 인해 국내외 초거대 AI 시장은 다양한 형태의 경량화 모델인 sLLM 모델 기반의 서비스 시장이 빠르게 확산되고 있는 상황임

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

인기 글

사용자 작성 모듈 import 시 에러)(ModuleNotFoundError: No module named
파이썬 모듈을 만들고 테스트 할 때 ModuleNotFoundError: No module named 에러가 발생한 경우원인파이썬은 모듈을 불러올 때 모듈 설치 경로와 자신의...
WSL2/Ubuntu 22.04 LTS에 Anaconda 설치 
WSL2/Ubuntu 환경에서 Python 버전별로 가상환경을 만드는 방법 중 그나마 Anaconda 방법이 좋은 것 같네요. 설치 방법은 간단합니다.1. apt update사용자...
오라클 클라우드 OCI 가입 드디어 성공 했습니다 (상세 후기)
2023년 2월 16일에 ‘오라클 클라우드 지급 검증 실패 글‘을 남긴 적이 있습니다.그 때 검색을 통해 해결 방법을 찾아 보았고, 당시 성공했던 분들의...
Ubuntu 20.04에 MySQL 5.7 설치
비씨티원 인공지능 서비스 플랫폼 BAP(Bctone AI service Platform)의 설치 환경은 공식적으로 Ubuntu 18.04와 MySQL 버전 5.7 입니다. 최근 Ubuntu...
Ubuntu 22.04 LTS에 Python 3.8 or 3.9 설치 방법
서버 : Vultr 클라우드OS: Ubuntu 22.04 LTS사용자 계정 생성하여 설치 진행함1. Start with the system updatesudo apt update...

BCT Ai Chatbot

답변을 준비중입니다 . . .