[BCT AI Chatbot 프로젝트] 대규모 데이터 임베딩 처리 시 고려사항 (2)

지난 글 “BCT AI Chatbot 개발 – 대규모 데이터 임베딩 처리 시 고려사항“에 이어 이번에는 대규모 데이터 학습 시 고려해야 할 부분을 다뤄보겠습니다.

 

(5) jsonl 데이터를 ChatGPT 학습용 데이터셋으로 변환

앞서 생성한 커스텀 포스트 타입으로 14만여개 데이터를 임포트 한 이후, 이 데이터를 전체를 jsonl 형태로 변환합니다. 변환 완료되면 다음과 같이 커스텀 파일이 생성됩니다.

[Download] 버튼을 눌러 파일을 다운로드 해서 파일 내용을 확인해 보면 다음과 같습니다.

[Upload] 버튼을 눌러 데이터셋으로 변환합니다.

 

(6) 데이터셋 변환

앞서 변환한 jsonl 파일을 데이터셋으로 변환합니다. 변환 완료된 화면은 다음과 같습니다.

[Create Fine-Tune] 버튼을 클릭하면 파인튜닝(fine-tuning)을 진행하게 됩니다.

 

(7) 커스텀 모델 생성

OpenAI API를 통해 생성한 데이터셋을 입력값으로 하여 파인-튜닝을 진행하였습니다. 이전과 달리 파인-튜닝에 상당히 오랜 시간이 걸리네요. 진행 중인 상태는 다음과 같습니다.

[Events] 버튼을 눌러 파인-튜닝 진행 단계를 확인할 수 있습니다.

커스텀 모델 생성 완료되면 다음처럼 FT Model에 생성된 모델명을 확인할 수 있습니다.

FT Model davinci:ft-bctone-2023-07-23-07-03-29이 생성된 커스텀 모델 입니다. 학습된 결과는 Results files에서 확인할 수 있습니다.

50개 데이터 쌍을 학습하는데 약 3시간 정도 걸렸고, 0.53$ 비용이 발생했네요.

 

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *

인기 글

Ubuntu 22.04 LTS에 Python 3.8 or 3.9 설치 방법
서버 : Vultr 클라우드OS: Ubuntu 22.04 LTS사용자 계정 생성하여 설치 진행함1. Start with the system updatesudo apt update...
오라클 클라우드 OCI 가입 드디어 성공 했습니다 (상세 후기)
2023년 2월 16일에 ‘오라클 클라우드 지급 검증 실패 글‘을 남긴 적이 있습니다.그 때 검색을 통해 해결 방법을 찾아 보았고, 당시 성공했던 분들의...
회사 도메인으로 무료 회사 메일 만드는 방법 정리
회사 도메인으로 무료 메일 만드는 방법에는 네이버, 다음, 구글 메일서버를 이용하는 방법이 있었는데, 근래 네이버, 구글의 ㄱㅇ우 유료 서비스로 전환되어 현재는 Daum 스마트워크를...
윈도우 WSL2/Ubuntu 환경에서 Kubeflow 설치 과정
이 글은 윈도우 11환경에서 minikube를 활용해 로컬(WSL2)에서 kubeflow 구축하는 방법을 설명하고 있습니다.Requirements윈도우 11 / WSL2...
WSL2/Ubuntu 22.04 LTS에서 Jupyter notebook 실행하기
WSL2 Ubuntu에서 Jupyter notebook(Jupyter Lab) 설치는 다음과 같습니다.$ pip install jupyter $ pip install jupyterlab단,...