[BCT AI Chatbot 프로젝트] 대규모 데이터 임베딩 처리 시 고려사항 (2)

지난 글 “BCT AI Chatbot 개발 – 대규모 데이터 임베딩 처리 시 고려사항“에 이어 이번에는 대규모 데이터 학습 시 고려해야 할 부분을 다뤄보겠습니다.

 

(5) jsonl 데이터를 ChatGPT 학습용 데이터셋으로 변환

앞서 생성한 커스텀 포스트 타입으로 14만여개 데이터를 임포트 한 이후, 이 데이터를 전체를 jsonl 형태로 변환합니다. 변환 완료되면 다음과 같이 커스텀 파일이 생성됩니다.

[Download] 버튼을 눌러 파일을 다운로드 해서 파일 내용을 확인해 보면 다음과 같습니다.

[Upload] 버튼을 눌러 데이터셋으로 변환합니다.

 

(6) 데이터셋 변환

앞서 변환한 jsonl 파일을 데이터셋으로 변환합니다. 변환 완료된 화면은 다음과 같습니다.

[Create Fine-Tune] 버튼을 클릭하면 파인튜닝(fine-tuning)을 진행하게 됩니다.

 

(7) 커스텀 모델 생성

OpenAI API를 통해 생성한 데이터셋을 입력값으로 하여 파인-튜닝을 진행하였습니다. 이전과 달리 파인-튜닝에 상당히 오랜 시간이 걸리네요. 진행 중인 상태는 다음과 같습니다.

[Events] 버튼을 눌러 파인-튜닝 진행 단계를 확인할 수 있습니다.

커스텀 모델 생성 완료되면 다음처럼 FT Model에 생성된 모델명을 확인할 수 있습니다.

FT Model davinci:ft-bctone-2023-07-23-07-03-29이 생성된 커스텀 모델 입니다. 학습된 결과는 Results files에서 확인할 수 있습니다.

50개 데이터 쌍을 학습하는데 약 3시간 정도 걸렸고, 0.53$ 비용이 발생했네요.

 

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *

인기 글

Ubuntu 22.04 LTS에 Python 3.8 or 3.9 설치 방법
서버 : Vultr 클라우드OS: Ubuntu 22.04 LTS사용자 계정 생성하여 설치 진행함1. Start with the system updatesudo apt update...
오라클 클라우드 OCI 가입 드디어 성공 했습니다 (상세 후기)
2023년 2월 16일에 ‘오라클 클라우드 지급 검증 실패 글‘을 남긴 적이 있습니다.그 때 검색을 통해 해결 방법을 찾아 보았고, 당시 성공했던 분들의...
자동화설비 구조 및 데이터PC 역할
자동화설비에 사용되는 하드웨어는 다음과같습니다.PLC : PLC는 자동화 설비의 제어를 담당하는 핵심 장치로, 프로그래밍을 통해 다양한 장비와 프로세스를 제어할 수 있습니다....
자동화설비 데이터PC 환경 설정
파이썬 3.11.0환경변수 설정파이참 커뮤니티 에디션 다운로드프로젝트 필수 라이브러리 다운로드QT5 환경 변수 추가PostgreSQL...
회사 도메인으로 무료 회사 메일 만드는 방법 정리
회사 도메인으로 무료 메일 만드는 방법에는 네이버, 다음, 구글 메일서버를 이용하는 방법이 있었는데, 근래 네이버, 구글의 ㄱㅇ우 유료 서비스로 전환되어 현재는 Daum 스마트워크를...