'A.I.(인공지능) & M.L.(머신러닝)/transformers' 카테고리의 글 목록

[Transformer 시리즈] Tokenization

최근 인공지능 분야에서 자연어처리(NLP)는 활발하게 연구되고 있는 영역 중 하나입니다. 특히 Transformer 구조의 등장으로 인해 언어 모델의 성능이 폭발적으로 발전하였고, 그 중심에 있는 모델 중 하나가 BERT입니다.이번 시리즈에서는 자연어처리를 처음 접하는 분들을 위해 다음과 같은 과정을 간단히 소개합니다. 오늘 다룰 내용은 Tokenization 입니다. A. 토큰화가 왜 필요할까요?1. 컴퓨터는 글자를 직접 이해하지 못한다.AI도 결국 컴퓨터 프로그램이라 글자 자체를 이해하지 못합니다. 컴퓨터는 숫자만 이해하죠. 토큰화는 텍스트를 AI가 처리할 수 있는 숫자로 바꾸는 첫 단계입니다.예를 들어, "안녕하세요"를 컴퓨터에게 그냥 주면 이해하지 못하지만, 토큰화를 통해 [8275]와 같은 숫..

2025. 3. 8. 17:13 / Tech쏜

A.I.(인공지능) & M.L.(머신러닝)/transformers

[실습] merge base model and LoRA adapter_model, Upload huggingface-hub

Topic. Fine-tuning 후 기존 base 모델과 생성된 adapter_model 을 merge합니다. 1. huggingface login $ pip install huggingface_hub $ huggingface-cli login 1.1 허깅페이스에서 발급받은 토큰 입력 2. Base Model 가져오기 from transformers import AutoModelForCausalLM, AutoTokenizer model_pretrained_name = {base model id} path_to_lora_adapters = {adapter model path} #모델 불러오기 model = AutoModelForCausalLM.from_pretrained( model_pretrained_..

2024. 4. 4. 16:31 / Tech엠지대표

A.I.(인공지능) & M.L.(머신러닝)/transformers

[실습] 3-4 전처리(Preprocess)

1. 모델 데이터 전처리하기 모델을 데이터셋으로 학습시키기 전에 데이터를 모델이 처리할 수 있는 입력 형식으로 전처리해야 합니다. 텍스트, 이미지, 오디오 등 어떤 데이터든 텐서 배치로 변환하고 결합해야 합니다. Transformers는 데이터를 모델에 맞게 준비하는 데 도움이 되는 여러 전처리 클래스를 제공합니다. 텍스트 : Tokenizer를 사용하여 텍스트를 토큰 시퀀스로 변환하고, 토큰의 숫자 표현을 만들고, 이를 텐서로 결합합니다. 음성 및 오디오 : Feature extractor를 사용하여 오디오 파형에서 시퀀스 특징을 추출하고 텐서로 변환합니다. 이미지 입력 : ImageProcessor를 사용하여 이미지를 텐서로 변환합니다. 멀티모달 입력 : Processor를 사용하여 토크나이저와 피처..

2024. 2. 3. 23:54 / Tech엠지대표

A.I.(인공지능) & M.L.(머신러닝)/transformers

[실습] 3-3 AutoModel

1. PyTorch AutoModelFor... 클래스를 사용하면 주어진 작업에 대해 사전 훈련된 모델을 로드할 수 있습니다. 예를 들어, AutoModelForSequenceClassification.from_pretrained() 를 사용하여 시퀀스 분류 모델을 로드할 수 있습니다. from transformers import AutoModelForSequenceClassification model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased") 동일한 체크포인트를 쉽게 재사용하여 다른 작업을 위한 아키텍처를 로드할 수 있습니다. from transformers import AutoModelForTokenC..

2024. 2. 3. 23:33 / Tech엠지대표

A.I.(인공지능) & M.L.(머신러닝)/transformers

[실습] 3-2 AutoTokenizer

* AutoTokenizer 거의 모든 NLP(자연어 처리) 작업은 토크나이저로 시작됩니다. 토크나이저는 입력을 모델이 처리할 수 있는 숫자 형식으로 변환합니다. AutoTokenizer.from_pretrained() 를 사용하여 토크나이저를 자동으로 로드할 수 있습니다. from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased") 토크나이저를 불러온 후 아래와 같이 토큰화(Embeding) 합니다. sequence = "In a hole in the ground there lived a hobbit." print(tokenizer(sequence)) 토큰화의 결과는 다음과 같습니다..

2024. 2. 3. 23:21 / Tech엠지대표

A.I.(인공지능) & M.L.(머신러닝)/transformers

[이론] 3-1 AutoClass

* AutoClass를 사용하여 사전 훈련된 인스턴스 로드 Transformer 아키텍처가 너무 많기 때문에 체크포인트에 맞는 아키텍처를 만드는 것이 어려울 수 있습니다. Transformers의 핵심 철학 중 하나는 라이브러리를 쉽고 간단하며 유연하게 사용하는 것입니다. AutoClass는 주어진 체크포인트에서 올바른 아키텍처를 자동으로 인퍼런스하고 로드합니다. from_pretrained() 메서드를 사용하면 모든 아키텍처에 대해 사전 훈련된 모델을 빠르게 로드할 수 있으므로 모델을 처음부터 훈련하는 데 시간과 리소스를 할애할 필요가 없습니다. 이러한 유형의 체크포인트 독립적 코드를 생성하면 아키텍처가 다르더라도 유사한 작업을 위해 훈련된 한 체크포인트에서 코드가 작동하면 다른 체크포인트에서도 작동합..

2024. 2. 3. 23:09 / Tech엠지대표