[BCT AI Chatbot 프로젝트] 대규모 데이터 임베딩 처리 시 고려사항 (2)

지난 글 “BCT AI Chatbot 개발 – 대규모 데이터 임베딩 처리 시 고려사항“에 이어 이번에는 대규모 데이터 학습 시 고려해야 할 부분을 다뤄보겠습니다.

 

(5) jsonl 데이터를 ChatGPT 학습용 데이터셋으로 변환

앞서 생성한 커스텀 포스트 타입으로 14만여개 데이터를 임포트 한 이후, 이 데이터를 전체를 jsonl 형태로 변환합니다. 변환 완료되면 다음과 같이 커스텀 파일이 생성됩니다.

[Download] 버튼을 눌러 파일을 다운로드 해서 파일 내용을 확인해 보면 다음과 같습니다.

[Upload] 버튼을 눌러 데이터셋으로 변환합니다.

 

(6) 데이터셋 변환

앞서 변환한 jsonl 파일을 데이터셋으로 변환합니다. 변환 완료된 화면은 다음과 같습니다.

[Create Fine-Tune] 버튼을 클릭하면 파인튜닝(fine-tuning)을 진행하게 됩니다.

 

(7) 커스텀 모델 생성

OpenAI API를 통해 생성한 데이터셋을 입력값으로 하여 파인-튜닝을 진행하였습니다. 이전과 달리 파인-튜닝에 상당히 오랜 시간이 걸리네요. 진행 중인 상태는 다음과 같습니다.

[Events] 버튼을 눌러 파인-튜닝 진행 단계를 확인할 수 있습니다.

커스텀 모델 생성 완료되면 다음처럼 FT Model에 생성된 모델명을 확인할 수 있습니다.

FT Model davinci:ft-bctone-2023-07-23-07-03-29이 생성된 커스텀 모델 입니다. 학습된 결과는 Results files에서 확인할 수 있습니다.

50개 데이터 쌍을 학습하는데 약 3시간 정도 걸렸고, 0.53$ 비용이 발생했네요.

 

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *

인기 글

Ubuntu 22.04 LTS에 Python 3.8 or 3.9 설치 방법
서버 : Vultr 클라우드OS: Ubuntu 22.04 LTS사용자 계정 생성하여 설치 진행함1. Start with the system updatesudo apt update...
오라클 클라우드 OCI 가입 드디어 성공 했습니다 (상세 후기)
2023년 2월 16일에 ‘오라클 클라우드 지급 검증 실패 글‘을 남긴 적이 있습니다.그 때 검색을 통해 해결 방법을 찾아 보았고, 당시 성공했던 분들의...
WSL2/Ubuntu 22.04 LTS에 Anaconda 설치 
WSL2/Ubuntu 환경에서 Python 버전별로 가상환경을 만드는 방법 중 그나마 Anaconda 방법이 좋은 것 같네요. 설치 방법은 간단합니다.1. apt update사용자...
AWS 인스턴스 유형 변경 방법
AWS 인스턴스 유형을 변경하기 위한 방법에는 다음 2가지가 있습니다.   1. 첫 번째 방법 AMI 이미지 생성 후 해당 이미지를 복원하여 신규 EC2 인스턴스를 생성하는...
Ubuntu 20.04에 MySQL 5.7 설치
비씨티원 인공지능 서비스 플랫폼 BAP(Bctone AI service Platform)의 설치 환경은 공식적으로 Ubuntu 18.04와 MySQL 버전 5.7 입니다. 최근 Ubuntu...