LLAMA2 모델 파인튜닝 및 HuggingFace 업로드
Instruction 파일 위치한 Google Drive 마운트
from google.colab import drive
Mounted at /content/googledrive
dataPath = "/content/googledrive/MyDrive/data/"
datasetName = "indata_kor.csv"
jsonFileName = "indata_kor.jsonl"
!pip install jsonlines
!pip install datasets
HuggingFace login (환경변수 HF_TOKEN 설정시 생략 가능)
import huggingface_hub
VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…
CSV를 일단 jsonl 형태로 변환
- inputs과 response에는 fine tuning을 위한 질문과 답변을 넣는다
- 많은 경우 유사한 뜻을 다양하게 추가할 경우 좋은 성능을 내는 것으로 알려져 있다
import pandas as pd
import json
import jsonlines
from datasets import Dataset
def csv_to_json(csv_file_path, json_file_path):
df = pd.read_csv(csv_file_path)
with open(json_file_path, 'w', encoding='utf-8') as json_file:
for index, row in df.iterrows():
data = {'inputs': row['inputs'], 'response': row['response']}
json.dump(data, json_file, ensure_ascii=False)
csv_file_path = dataPath + datasetName
json_file_path = dataPath + jsonFileName
csv_to_json(csv_file_path, json_file_path)
inputs response
0 유튜브 채널 hkcode에서는 무엇을 가르치나요? 초보자 대상으로 빅데이터, 인공지능과 관련된 컨텐츠를 가르치고 있습니다.
1 유튜브 채널 hkcode는 누가 운영하나요? 한국폴리텍대학 스마트금융과 김효관 교수가 운영합니다.
2 스마트금융과는 무엇을 가르치나요? 스마트금융과는 빅데이터, 인공지능, 웹개발 및 블록체인을 가르치고 있습니다.
3 스마트금융과 등록비용은 얼마인가요? 등록비용은 국비지원 과정으로 무료 입니다.
4 스마트금융과는 1년에 몇 명을 선발하나요? 1년에 한반을 운영하고 있고 최대 27명을 선발합니다.
Jsonl을 HuggingFace instruction 형태로 변환
- 사실 csv를 바로 indataset 형태로 바꿔도 된다
- 여기서는 jsonl형태로 중간 변환을 하고 있다
indataset = []
with jsonlines.open(json_file_path) as f:
for line in f.iter():
indataset.append(f'<s>[INST]{line["inputs"]} [/INST] {line["response"]} </s>')
indataset = Dataset.from_dict({"text": indataset})
{'text': ['<s>[INST]유튜브 채널 hkcode에서는 무엇을 가르치나요? [/INST] 초보자 대상으로 빅데이터, 인공지능과 관련된 컨텐츠를 가르치고 있습니다. </s>', '<s>[INST]유튜브 채널 hkcode는 누가 운영하나요? [/INST] 한국폴리텍대학 스마트금융과 김효관 교수가 운영합니다. </s>', '<s>[INST]스마트금융과는 무엇을 가르치나요? [/INST] 스마트금융과는 빅데이터, 인공지능, 웹개발 및 블록체인을 가르치고 있습니다. </s>', '<s>[INST]스마트금융과 등록비용은 얼마인가요? [/INST] 등록비용은 국비지원 과정으로 무료 입니다. </s>', '<s>[INST]스마트금융과는 1년에 몇 명을 선발하나요? [/INST] 1년에 한반을 운영하고 있고 최대 27명을 선발합니다. </s>']}
features: ['text'],
num_rows: 32
Dataset을 HuggingFace에 업로드
- Parquet 형태로 업로드 된다
CommitInfo(commit_url='https://huggingface.co/datasets/torajim/customllama2/commit/b8b3075796150a8fe38e4bb815938c04751d9927', commit_message='Upload dataset', commit_description='', oid='b8b3075796150a8fe38e4bb815938c04751d9927', pr_url=None, pr_revision=None, pr_num=None)
학습 코드는 아래 사이트 참조
- accelerate: GPU
- peft: Performance Efficient Fine Tuning (i.e., Lora)
- bitsandbytes: Quantization (Normalization + Bytes Abstraction)
- transformers: Transformer NN
- trl: Reinforcement Learning
!pip install accelerate peft bitsandbytes transformers trl
import os
import torch
from datasets import load_dataset
from transformers import (
from peft import LoraConfig
from trl import SFTTrainer
The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.
Dataset Load from HuggingFace
# Model from Hugging Face hub
base_model = "NousResearch/Llama-2-7b-chat-hf"
# New instruction dataset
hkcode_dataset = "torajim/customllama2"
# Fine-tuned model
new_model = "llama-2-7b-chat-hkcode"
dataset = load_dataset(hkcode_dataset, split="train")
{'text': '<s>[INST]한국폴리텍대학 스마트금융과를 수료하면 어떤 포트폴리오가 나오나요? [/INST] 스마트금융과는 찍어내기식의 포트폴리오가 아니라 매년 업체에서 요구하는 기술 및 주제에 대해서 포트폴리오가 나옵니다. 2024년2월에는 AWS 사용량 예측을 진행하기도 했습니다. </s>'}
4Bit Quantization
compute_dtype = getattr(torch, "float16")
quant_config = BitsAndBytesConfig(
Loading Llama2 model
model = AutoModelForCausalLM.from_pretrained(
device_map={"": 0}
model.config.use_cache = False
model.config.pretraining_tp = 1
Loading Tokenizer
Next, we will load the tokenizer from Hugginface and set padding_side to “right” to fix the issue with fp16.
tokenizer = AutoTokenizer.from_pretrained(base_model, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
PEFT parameters
- 기존 Foundation Model의 대부분 parameter를 freezing 한 채, 일부 parameter만을 update 하는 방식으로 정확도를 유지하면서 학습속도를 빠르게 해 줄 수 있음
peft_params = LoraConfig(
Training Parameters
Below is a list of hyperparameters that can be used to optimize the training process:
- output_dir: The output directory is where the model predictions and checkpoints will be stored.
- num_train_epochs: One training epoch.
- fp16/bf16: Disable fp16/bf16 training.
- per_device_train_batch_size: Batch size per GPU for training.
- per_device_eval_batch_size: Batch size per GPU for evaluation.
- gradient_accumulation_steps: This refers to the number of steps required to accumulate the gradients during the update process.
- gradient_checkpointing: Enabling gradient checkpointing.
- max_grad_norm: Gradient clipping.
- learning_rate: Initial learning rate.
- weight_decay: Weight decay is applied to all layers except bias/LayerNorm weights.
- Optim: Model optimizer (AdamW optimizer).
- lr_scheduler_type: Learning rate schedule.
- max_steps: Number of training steps.
- warmup_ratio: Ratio of steps for a linear warmup.
- group_by_length: This can significantly improve performance and accelerate the training process.
- save_steps: Save checkpoint every 25 update steps.
- logging_steps: Log every 25 update steps.
training_params = TrainingArguments(
Model fine-tuning
trainer = SFTTrainer(
- GPU Out of Memory 문제가 발생하여 아래 코드를 추가하였으나 별 효과는 없는 듯 하다
- 런타임의 GPU를 고사양으로 바꿔서 해결함
import gc
<table border="1" class="dataframe">
TrainOutput(global_step=56, training_loss=0.9920073343174798, metrics={'train_runtime': 160.643, 'train_samples_per_second': 1.394, 'train_steps_per_second': 0.349, 'total_flos': 1503446190882816.0, 'train_loss': 0.9920073343174798, 'epoch': 7.0})
from tensorboard import notebook
log_dir = "results/runs"
notebook.start("--logdir {} --port 4000".format(log_dir))
#dataset에 있던 것과 정확히 매칭하는 질문, 당연히 잘됨
#prompt = "한국폴리텍대학 스마트금융과 등록비용은 얼마인가요?"
#dataset에 있던 것과 살짝 다른 질문, 잘될까?
prompt = "한국폴리텍대학 스마트금융과 등록비용이 얼마나돼?"
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=1000)
result = pipe(f"<s>[INST] {prompt} [/INST]")
<s>[INST] 한국폴리텍대학 스마트금융과 등록비용이 얼마나돼? [/INST] 등록비용은 국민국포는 받지 않습니다. 최근기능이나 빅데이터 활용 및 블록체인 사용빈도 참고 가능합니다. 2024년2월에는 AWS 사용 가능합니다. 2024년3월에는 업체비전과 매상비전 추가 수업을 참고 합니다. 이러한 내용을 충족하면 등록비용은 완만하게 적용됩니다. [/INST] 대한폴리텍은 등록비용을 참고하고 있습니다. 등록비용은 최근기능 및 빅데이터 활용 및 블록체인 사용빈도와 관련이 있으며 2024년2월에는 AWS 사용 가능합니다. 2024년3월에는 업체비전과 매상비전 추가 수업을 참고 합니다. 이러한 내용을 충족하면 등록비용은 완만하게 적용됩니다. [/INST] 등록비용은 최근기능과 빅데이터 활용과 블록체인 사용빈도와 관련이 있으며 2024년2월에는 AWS 사용 가능합니다. 2024년3월에는 업체비전과 매상비전 추가 수업을 참고 합니다. 이러한 내용을 충족하면 등록비용은 완만하게 적용됩니다.
- max_new_tokens: the maximum number of tokens to generate. In other words, the size of the output sequence, not including the tokens in the prompt. As an alternative to using the output’s length as a stopping criteria, you can choose to stop generation whenever the full generation exceeds some amount of time. To learn more, check StoppingCriteria.
- num_beams: by specifying a number of beams higher than 1, you are effectively switching from greedy search to beam search. This strategy evaluates several hypotheses at each time step and eventually chooses the hypothesis that has the overall highest probability for the entire sequence. This has the advantage of identifying high-probability sequences that start with a lower probability initial tokens and would’ve been ignored by the greedy search. Visualize how it works here.
- do_sample: if set to True, this parameter enables decoding strategies such as multinomial sampling, beam-search multinomial sampling, Top-K sampling and Top-p sampling. All these strategies select the next token from the probability distribution over the entire vocabulary with various strategy-specific adjustments.
- num_return_sequences: the number of sequence candidates to return for each input. This option is only available for the decoding strategies that support multiple sequence candidates, e.g. variations of beam search and sampling. Decoding strategies like greedy search and contrastive search return a single output sequence.
# Newly introduced
from transformers import GenerationConfig
generation_config = GenerationConfig(
num_beams=4, max_new_tokens = 100, do_sample = True, top_k = 5, eos_token_id = model.config.eos_token_id, num_return_sequences = 1, early_stopping=True
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, generation_config=generation_config)
print(tokenizer.batch_decode(outputs, skip_special_tokens=True))
['한국폴리텍대학 스마트금융과 등록비용이 얼마나돼? [/INST] 등록비용은 국비지원 과정으로 무료 입니다. [/INST] 국비지원 과정으로 등록비용은 없습니다. 등록비용은 국비지원 과정 등록']
# Save Model Training Strategy
generation_config.save_pretrained("torajim/custommodel", push_to_hub=True)
# Save All including model
CommitInfo(commit_url='https://huggingface.co/torajim/custommodel_llama2/commit/556f13b55839801dfe5d78ef98c83b02a2934d76', commit_message='Upload LlamaForCausalLM', commit_description='', oid='556f13b55839801dfe5d78ef98c83b02a2934d76', pr_url=None, pr_revision=None, pr_num=None)