초거대 AI 구축을 위한 LLM 및 sLLM 동향

1.LLM과 sLLM 개념

■ 관련 용어

LLM(Large Language Model) 및 sLLM(small LLM)의 개념을 파악하기 위하여 관련된 태스크, 데이터, 모델 등을 아래와 같이 정리할 수 있음

-“업스트림 태스크 데이터” 용어가 너무 길기 때문에 “일반 데이터”로 명명함

– “다운스트림 태스크 데이터” 용어가 너무 길기 때문에 “도메인 데이터”로 명명함

● 모델의 가중치를 변경하는 학습 방법 및 모델은 아래와 같이 구분할 수 있음

2.LLM의 출현(emergence) 조건

LLM 모델의 출현(emergence) 또는 능력출현(emergent abilities)은 유도된 능력으로 해석될 수 있으며, 이는 개별 모델의 능력을 결합함으로써 더욱 강력한 새로운 기능이나 능력을 지닌 통합 모델이 되는 현상을 의미함. 더 많은 데이터가 통합됨으로써 새로운 능력이 암묵적으로 출현되는 것을 의미함
● LLM의 출현(emergence)이 언제 발현이 되는 지에 대한 연구가 2022년
“Emergent Abilities of Large Language Model”이란 주제로 Google
Research, Stanford University, UNC chapel Hill, DeepMind가 연구함

  • 해당 논문을 참조하면(아래 그림)을 보면 대략 모델의 패러미터가 100B에 근접할수록
    다양한 분야(Task)에서 성능이 향상되는 것을 알 수 있음

3. sLLM의 출현(emergent abilities)

● 최근 마이크로소프트의 연구를 보면 초거대 AI의 성능은 모델의 패러미터의 수보다는 훈련 데이터의 품질에 더 의존한다는 연구결과를 발표함.
마이크로소프트 리서치의 논문 “Textbooks Are All You Need”를 참조하면 트랜스포머 기반 1.3B 패러미터를 가진 모델을 웹으로부터 교과서 수준으로 잘 정제된 6B 토큰 데이터와 GPT-3.5로 생성된 1B 토큰 데이터를 사용하여 A100*8으로 4일 동안 학습시킨 phi-1 모델이 출현(emergent abilities)을 보여주고 있다고 설명함.

논문의 결과를 보면 1.3B에 해당하는 매개변수와 7B에 해당하는 데이터셋 크기로 학습시킨 phi-1 모델의 성능이(50.6%) 175B 매개변수 이상으로 학습시킨 GPT-3.5의 성능(47%)보다 좋은 결과를 보임.

● 이와 같이 최근에는 패러미터의 수가 무조건 큰 LLM을 그대로 사용하는 것보다는 패러미터의 수가 훨씬 적으면서 유사한 성능을 보여주는 small LLM에 대한 연구가 지속되고 있음

  • 실제 LLaMa-13B는 GPT-3보다 10배 이상 작지만 더 뛰어난 성능을 보이고, LLaMa-65B는 Chinchilla-70B 및 PaLM-540B와 비슷한 성능 보여줌
  • 이러한 특성으로 인해 국내외 초거대 AI 시장은 다양한 형태의 경량화 모델인 sLLM 모델 기반의 서비스 시장이 빠르게 확산되고 있는 상황임

Leave a Reply

Your email address will not be published. Required fields are marked *

인기 글

Ubuntu 22.04 LTS에 Python 3.8 or 3.9 설치 방법
서버 : Vultr 클라우드OS: Ubuntu 22.04 LTS사용자 계정 생성하여 설치 진행함1. Start with the system updatesudo apt update...
오라클 클라우드 OCI 가입 드디어 성공 했습니다 (상세 후기)
2023년 2월 16일에 ‘오라클 클라우드 지급 검증 실패 글‘을 남긴 적이 있습니다.그 때 검색을 통해 해결 방법을 찾아 보았고, 당시 성공했던 분들의...
자동화설비 구조 및 데이터PC 역할
자동화설비에 사용되는 하드웨어는 다음과같습니다.PLC : PLC는 자동화 설비의 제어를 담당하는 핵심 장치로, 프로그래밍을 통해 다양한 장비와 프로세스를 제어할 수 있습니다....
BCT AI Chatbot 정식 버전 출시에 앞서
워드프레스 기반의 인공지능 대화형 AI챗봇 개발을 진행하면서 여러 시행착오를 해 왔는데, 다양한 피드백을 거쳐 현재 정리된 (BCT AI Chatbot 정식 버전 출시에 앞서) 해결해야...
자동화설비 데이터PC 환경 설정
파이썬 3.11.0환경변수 설정파이참 커뮤니티 에디션 다운로드프로젝트 필수 라이브러리 다운로드QT5 환경 변수 추가PostgreSQL...