이젠 진짜 LLM의 시대가 도래하였다.
아키텍처 중심의 발전이 대부분이였던 자연어 처리 관련 논문들에서도
LLM을 고려하지 않는 논문이 없을 정도로 많은 논문이 LLM과 밀접한 연관이 있다.
연구들을 살펴보면 다음과 같은 분류로 나눠볼 수 있을 것 같다.
1. 이미 만들어진 LLM을 잘 써먹고자 하는 부류 (ex: Prompt Engineering)
2. LLM을 특정 작업에 특화시키는 방법론에 대해 고민하는 부류 (ex: LLM Tune Method)
3. LLM의 뼈대(아키텍처)에 대해 고민하는 부류 (ex: SSM, Mamba, Transformers)
4. LLM의 성능최적화에 대해 고민하는 부류 (ex: 1bit-LLM)
아마 위의 넷 정도로 나눠서 생각해 볼 수 있을 것이다. (물론 더 많지만)
지금 살펴볼 논문은 아마도 1번과 2번 그 어디엔가 위치한 논문이라고 볼 수 있을 것이다.
예를 들어 LLM을 잘 써먹고자 연구하는 부류에는
단순하게 Prompt만을 조작하는 경우도 있으며, 혹은 Tool-Chain을 이용하는 경우도 있다.
더 나아가 GraphRAG와 같이 Information을 조작하는 방식에 대해 연구하기도 한다.
Tune 방법론에 관하여서도
Lora나 Q-Lora와 같이, Mechanical 하게 Train Method 자체를 포커싱하는 경우도 있으며
Instuction Tuning 과 같이 학습 정보를 어떻게 조작하는지에 따른 학습 효율에 관해 연구하는 경우도 있다.
이런 모든 방법론들은 이미 LLM의 성능을 충분히 향상시킬 수 있음을 증명해오고 있으며
이번에 살펴볼 연구는 이러한 과정의 연속선상에서 특히 E-Commerce 분야를 타겟하고 있다.
In-Context Learning (ICL)
Instuction Tuning은 구글의 논문(Finetuned language models are zero-shot learners)에서 처음 언급된다.
(또 구글이야 ...) (제목을 보면 알겠지만 OpenAI의 Language Models are Few-Shot Learners 에서 딱 한 발자국 나갔다)
원리는 아주 간단하다.
일반적으로 Decoder-Only Transformer 모델의 학습은 Next-Word Prediction 방식을 취한다.
(정확하게는 Next Token Prediction이라 보는 것이 맞다)
즉, 선행 입력된 단어로부터 계속해서 Next Token을 찾아나가는 것이며
최종적으로 <EOS>라는 Token이 확률적으로 가장 높은 상황이 될 때 까지 이를 반복하는 기능을 수행하는 것이다.
이런 방식으로 사전학습된 모델은 실제로 상당한 자연어처리 능력을 보여줬다.
Google이 Transformer와 Pre-Train 모델인 BERT를 공개하였을 때를 생각해보자.
불과 몇 년 전만 해도 고작 Word Lexicon Based의 연구가 주를 이루고 있었고
Text Embedding을 이용한 연구가 슬금슬금 나오던 때였다.
BERT는 몇 건의 데이터, 그것도 어떤 형태로 변환된 것이 아닌
Text의 입력 만으로도 Prediction 혹은 Classification과 같은 작업을 성공적으로 수행하였다.
실제로 이 Problem이 "숫자"로 표현될 수 있는 전통적인 Task이기 때문에 당시에는
이것만 해결하는 것도 상당히 비약적인 발전이였다.
그러나 컴퓨팅 Power와 LLM의 크기가 커지며, 이제는 전통적인 Task를 넘어서
인간만이 할 수 있던 일반적인 Task를 처리할 수 있는 수준까지 성능이 발전되기 시작하였고
이러한 "Specific Problem"을 처리하는 능력을 향상시킬 수 없는지에 대한 논의가 시작된다.
이 시기에 등장한 것이 바로 OpenAI의 Few-Shot에 관련한 연구인 것이다(상단 링크) .
이전부터 계속 소개하고 있지만, LLM은 크기가 커짐에 따라 비약적인 성능발전이 나타났는데
지금 소개하는 In-Context Learning에서도 동일한 현상이 발견되었다.
In-Context Information은 Prompt에 들어가는 추가적인 정보라고 볼 수 있는데
LLM의 크기가 커짐에 따라, 이러한 In-Context Information에 대한 학습 성능이 비약적으로 발전한다.
즉, In-Context Learning이라고 부를 수 있을 정도로 강력한 학습 능력이 나타난다는 것이다.
이후 다양한 연구들에서 In-Context Learning에 의한 LLM의 강력함이
하나하나 밝혀지기 시작하며 더이상 LLM의 한계를 예상할 수 없는 수준까지 이르게 된다.
입력된 프롬프트는 모델의 "특정 Layer"가 개별적으로 받아들이는 추가적인 Information이 아니다.
즉 다른 Text와 동일한 Input일 뿐이라는 이야기이다.
실제로 Context를 이해하는 것은, 사진과 같은 작업이 선행되어야 가능한 것이다.
그런데 모델의 크기만 커졌을 뿐인데, LLM은 이걸 어떤 방식으로든 수행하고 있었다.
주어진 데이터의 문맥을 이해하고, Format을 이해할 수 있다니!
단순하게 조정된 Weight에 의해 Output을 산출하는 Function이 아니라
마치 정말 "이해"라는 작업을 수행하고 있는 것과 같은 능력이 나타난 것이다.
"이해"를 통해 Weight를 조정할 필요가 없는 학습이라니! 당시에는 정말 말도 안 되는 능력이였다.
여기서 기술은 딱 한 발자국 더 나아간다.
LLM의 Pre-Trained으로 증명된 "일반적 처리 능력"이 Weight로 "저장"될 수 있음을 증명했고,
In-Context Learning으로 LLM이 문맥을 "처리"할 수 있음이 증명되었다.
그러면 두 가지를 섞으면 어떨까?
"문맥 처리 능력"은 저장될 수 없을까?
Instruction Tuning
아주 간단하게도 이러한 방법의 Fine-Tuning이 성공하며, 대-Instruction Tuning의 시대가 열렸고
수많은 HuggingFace의 모델명 옆에 -Instruction을 달고있지 않는 것을 찾기가 더 어려워졌다.
원리는 아주 간단하다.
Fine-Tuning을 수행한다. 그러나 그 Input과 Output은 특정 Task에 대하여 명확한 지시사항과 정답을 제공한다.
이러한 방식을 통해 당연하게도, 학습된 Task에 대한 수행 능력은 향상되게 될 것이다.
그러나 더욱 놀라운 것은, 학습하지 않은 작업(Unseen Task)에 대해서도 상당히 성능이 향상 된다는 것이다.
그렇다면 어떻게 Instruction Tuning을 진행할까?
여기서 가장 중요한 것은, 적절한 Task의 분류와 해당 Task에 맞는 양질의 데이터를 생성하는 것이다.
적절한 Instruction - Input에 대응하는 적절한 Output의 Pair로 된 데이터가 필요하며
특히 이 때 Output의 경우, 하나의 정형화된 방법만 제공될 수도 있고
(예를 들어, 몇 가지 선택지 중 하나를 선택하도록 하는 경우; Yes or No로 답변하는 경우 등)
아니면 몇 가지의 Templete 중 하나를 선택하여 답변이 생성될 수도 있다.
Instruction-tuned with ECInstruct
eCeLLM은 앞서 설명한 Instruction Tuning의 방법론을, E-Commerce 분야에 그대로 적용한다.
이러한 시도는 예전에도 존재하였지만, 해당 연구에서는 Data를 모두 Open-Source로 공개하였다.
해당 연구자들이 제시하는 Task는 총 10가지이며, 이는 각각 4개의 범주로 구분된다.
Categories | Task | Definition | Type |
Product Understanding |
AVE | 주어진 "품명(Title)", "설명", "특징들(Features)", "상품의 브랜드"를 보고, 타겟의 특정한 Attribution으로부터 정확한 값을 추출하는 작업. | Information Extraction |
PRP | 주어진 두 가지 상품의 "품명(Title)"을 보고, 이 들의 관계가 "함께 구매(Also buy)", "함께 탐색(Also View)", "비슷함(Similar)"중 무엇인지 예측. | Multi-class Classification |
|
PM | 두 곳의 플래폼으로부터 주어진 상품의 "품명(Title)", "설명", "제조업체" 및 "가격"을 보고 이것이 같은 상품인 것인지 예측. | Binary Classification |
|
User Understanding |
SA | 유저로부터 작성된 상품의 리뷰를 보고, 해당 상품에 유저가 표출하였을 감정(Sentiment)을 식별. | Multi-class Classification |
SR | 유저가 상품에 대해 수행한 상호작용(Interactions)을 통해, 다음에 어떤 상품에 관심이 있을지 예측. | Ranking | |
Query Product Matching |
MPC | 쿼리와 상품의 품명을 보고, 해당 쿼리와 상품간의 관련성에 대해 예측. | Multi-class Classification |
PSI | 유저의 쿼리와 연관 가능성이 있는 상품이 제시되었을 때, 해당 상품이 유저의 쿼리를 대처할 수 있는지에 대해 예측. | Binary Classification |
|
QPR | 유저의 쿼리와, 연관 가능성이 있는 상품의 리스트가 제시되었을 때, 개별 상품과 쿼리와의 연관성에 따라 해당 상품들의 순위를 산출. | Ranking | |
Product QA |
AP | 상품 연관 질문(Question)과, 상품의 리뷰가 주어졌을 때, 해당 질문이 답변 가능한 것인지 예측 | Binary Classification |
AG | 상품 연관 질문이 주어지고, 리뷰들이 도움 문서(Supporting Documents)로 주어질 때, 해당 질문에 대한 답변을 생성. | Generation |
이 때 개별 작업의 학습 과정에서 살펴볼 몇 가지 과정이 존재한다.
다중 Instruction 설정
먼저 개별 작업에 대한 6개의 Instruction이 설정된다.
이 때 Major Instruction은 인간에 의해 생성된 Instruction이며
나머지 5개는 AI에 의해서 생성된 Instruction이다.
이 때 Major + AI 4개는 학습 과정에서 사용되며
나머지 1개의 Instruction은 Unseen Instruction으로 사용되여 평가에 이용된다.
Data Pre-Processing
몇 가지 간단한 전처리를 실행한다.
1. Train 및 Test 데이터에 존재하는 중복 제거
2. 텍스트 언어의 통일성 유지 - 영어 데이터만 사용
3. HTML 태그나 유니코드 같은 비영어 표기 제거
4. 데이터 선택시 상세한 Description이 존재하는 제품만 선택
5. 텍스트 길이를 적절한 범위 내에서 유지
6. 처리된 데이터를 인간이 수동으로 검토
Parameter
eCeLLM 모델은 거대 모델을 LoRA 방식으로 Fine-Tuning 함
이 때 LoRA Adaptor의 경우 모든 Projection Layer와 Modeling Head에 추가되었음.
세부적인 Hyper-Parameter는 연구에서 모두 밝히고 있으며 주요 몇 가지는 아래와 같음
3 epochs, 5% warm-up, lr 1e-4, batch size 128, LoRA's alpha and rank 16.
이렇게하여 총 3가지 군집 Large, Medium, Small의 OpenSource 모델을 학습시킴
Large의 경우 10B 이상의 거대 모델(T5 13B, Llama-2 13B)
Medium의 경우 5~10B의 모델(Llama-2 7b, Mistral-7B)
Samll의 경우 3B의 모델(T5 3B, Phi-2 3B)
마지막으로 실제 데이터의 예시를 통해 어떤 방식으로 Train이 진행되었는지 보자.
AVE Task(정보로부터 Attribution의 Value를 추출)를 진행할 때 사용되는 예시 데이터.
Instruction:
제품의 제목(title), 설명(description), 특징(feature), 가격(price), 브랜드(brand) 정보와 대상 속성(target attributes) 세트가 주어졌을 때, 제품 정보에서 각 대상 속성의 값을 추출합니다. 추출된 값과 함께 값이 추출된 출처(예: 제목(title) 또는 특징(feature))를 출력합니다.
Input:
– 제품명: Bencore Multi Functional Molle Tactical Messenger Bag.
– 제품 설명: 이 튼튼하고 내구성 있는 전술 어깨 가방은 거의 모든 상황에서 완벽하고 스타일리시한 솔루션을 제공합니다. 가방은 찢어지지 않는 내구성 있는 나일론 소재로 제작되었으며 색상이 바래지 않습니다. 가방 전체에 MOLLE 액세서리를 위한 많은 MOLLE 스트랩이 있습니다. 가방에는 사진에서 보이는 것처럼 넉넉한 수납공간이 있으며 다양한 스타일의 색상으로 제공됩니다. 이 가방의 디자인, 편안함, 기능성에 중점을 두었으며, 따라서 가방이 완전히 인체공학적이고 가볍고 넉넉한 주머니와 벨크로 패치가 많이 있는 것을 확인했습니다. 제품은 Bencore 평생 보증과 만족 보증이 포함되어 있습니다. Bencore는 Paracord, 배낭, 기본 야외 필수품 등 다양한 야외 의류/액세서리를 제조하는 선도적인 제조업체입니다.
– 제품 특징: 내구성이 뛰어난 가볍고 튼튼한 나일론 구조, 극한 상황에서도 찢어지거나 부러지지 않음 - 평생 보증, 튼튼하고 넉넉한 메인 드로스트링 클로즈드 수납공간은 장비를 안전하게 보관할 수 있는 공간을 제공합니다. MOLLE 시스템은 대부분의 MOLLE 액세서리와 호환되며, 전면 포켓은 빠른 접근이 가능하고 넉넉한 내부 포켓은 분리된 수납공간을 제공합니다. 지퍼 잠금식 숨겨진 뒷주머니, 완전히 인체공학적인 패딩 시스템, 편안한 핸들링을 위한 조절 가능한 어깨 스트랩.
– 제품 브랜드: Bencore
– 대상 속성(Target attributes): 소재(Material)
Output:
– 속성(Attribute): 소재(Material); 값(Value): 나일론(Nylon); 출처(Source): 제품 설명(Product description).
– 속성(Attribute): 소재(Material); 값(Value): 나일론(Nylon); 출처(Source): 제품 특징(Product feature).
실제 학습이 완료된 후 Inference를 진행할 때 사용되는 프롬프트
(Zero-Shot Prompt, Option이 존재하는 경우. 만약 Option이 없다면 Option만 제거)
(1-Shot을 실시하는 경우 Example을 추가하여 Input과 Response를 직접 제공)
System prompt: 아래는 작업을 설명하는 지시문입니다. 요청을 적절히 완료하는 응답을 작성하세요.
Instruction: {instruction}
– input: {input}
– options: {options}
– response:
실제로 이렇게 학습된 모델의 경우 학습된 Task에서의 성능은 상당한 수준을 보여주고 있다
다만 실제로 Instruction Tuning의 장점은 Unseen Task에 대해서도 충분한 성능을 보여줄 수 있다는 것이지만
해당 연구에서는 Unseen Instruction에 대한 능력만을 검증했을 뿐, 제시된 10가지의 Task를 벗어나는
다른 Task에 대한 수행능력을 검증하고 있지는 않다.
더불어 본 연구가 수행한 작업들의 실제 Performance를 한 번 살펴보자.
1. 개별 Task에 다양한 Instruction을 제공한 것은 유의미한가?
실제로 Diverse Instruction을 제공한 경우가, 더 높은 정확도를 제공하고 있음을 파악할 수 있다.
이는 매우 유의미한 결과로, Instruction Tuning시 다중 Instruction이 제공되는 것이 좋음을 보여준다.
그러나 이러한 사실은 실제 Flan에서도 언급되는 내용이라, 특별하게 놀라운 것은 아니다.
2. 모델에 One-by-One으로 Tuning을 하는 것보다, 모든 Task를 학습시키는 것이 성능 향상에 유리한가?
모든 Task에서 일관된 결과를 보이지는 않는다.
다만 개별 경우의 Data가 얼마나 맞추어졌는지에 대해서는 알 수 없는 사실이며
데이터의 양이 증가했을 때 다른 경향을 보일 수도 있는 부분이다.
그러나 일반적으로 다중 Task를 하나의 Model에 모두 학습시키는 것이 일반적이므로
Task-Specific에서 더 높은 성능이 나온 경우를 추려, 이를 보완할 방법을 생각하는 것이 좋을 것으로 보인다.
실제 논문에서 밝히고 있는 Data Example
Task 1. ATTRIBUTE VALUE EXTRACTION (AVE)
주어진 상품명, 설명, 특징, 브랜드로부터 특정한 속성(Attributes)을 추출하고, 그 속성이 어떤 설명으로부터 추출되었는지 제시하는 작업.
Instruction:
시드 지시사항:
제품의 제목, 설명, 특징, 가격, 브랜드 정보와 대상 속성 목록이 주어졌을 때, 각 대상 속성의 값을 제품 정보에서 추출하세요. 추출된 값과 해당 값이 추출된 출처(예: 제목, 설명, 특징 등)를 출력하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
주어진 제품 정보에서 대상 속성의 값을 추출하고, 해당 값과 출처를 함께 출력하세요.
생성된 지시사항 2
제품 정보를 분석하여 대상 속성을 찾아낸 다음, 해당 속성의 값을 추출하고 출처와 함께 출력하세요. 속성이 존재하지 않을 경우 "없음(None)"으로 지정하세요.
생성된 지시사항 3
먼저 제공된 대상 속성 목록에서 속성을 식별하세요. 그런 다음, 제품의 제목, 설명, 특징, 브랜드 정보를 스캔하여 각 대상 속성과 연관된 값을 추출하세요. 마지막으로, 각 추출된 속성, 해당 값, 그리고 해당 값이 발견된 출처를 포함하는 사전의 목록을 만드세요.
생성된 지시사항 4
제품의 제목, 설명, 특징, 가격, 브랜드 정보를 사용하여 특정 대상 속성과 연관된 값을 식별하고 추출하세요. 추출된 값과 각각의 출처(예: 제목, 설명, 특징 등)를 함께 출력하세요.
Unseen Instruction(학습에 사용되지 않음)
제품 정보에서 대상 속성과 연관된 값을 찾아 추출하고, 해당 값이 발견된 출처(예: 제목, 설명, 특징 등)를 지정하세요.
입력:
제품명: Bencore 다기능 몰리 전술 메신저 백.
제품 설명: 이 견고하고 내구성이 뛰어난 전술 숄더백은 거의 모든 상황에서 완벽하고 스타일리시한 솔루션을 제공합니다. 이 가방은 찢어지지 않고 색상이 바래지 않는 내구성 있는 나일론으로 제작되었습니다. 가방에는 모든 몰리 액세서리를 위한 몰리 스트랩이 다수 포함되어 있습니다. 사진에서 볼 수 있듯이 넉넉한 수납공간이 있는 여러 개의 칸이 있으며 스타일리시한 다양한 색상으로 제공됩니다. 이 가방은 디자인, 편안함, 기능성을 강조하여 완전히 인체공학적이고 가볍게 제작되었으며 넉넉한 포켓과 벨크로 패치가 가방 전체에 배치되어 있습니다. 제품은 Bencore의 평생 보증이 제공되며 만족이 보장됩니다. Bencore는 파라코드, 백팩 및 기본 야외 필수품에 이르기까지 야외 의류/액세서리 분야의 선도적인 제조업체입니다.
제품 특징: 내구성이 뛰어나고 경량인 고강도 나일론 소재로 제작되어 극한 상황에서도 찢어지거나 부서지지 않음 - 평생 보증. 견고하고 넓은 주요 드로스트링 클로즈드 수납공간은 장비를 안전하게 보관할 수 있는 공간을 제공합니다. 몰리 시스템으로 대부분의 몰리 액세서리와 호환됨. 앞 주머니는 빠른 접근이 가능하며 내부 넉넉한 주머니는 분리된 편리한 보관을 제공합니다. 지퍼로 닫을 수 있는 숨겨진 뒷주머니, 패딩 처리와 완전히 인체공학적인 시스템, 편안한 핸들링을 위한 조절 가능한 숄더 스트랩.
제품 브랜드: Bencore
타겟 속성: 소재
출력:
속성: 소재; 값: 나일론; 출처: 제품 설명.
속성: 소재; 값: 나일론; 출처: 제품 특징.
###########################################################################################
Task 2. PRODUCT RELATION PREDICTION (PRP)
두 제품의 상품명이 주어졌을 때, 그 두 제품의 관계를 예측하는 작업.
Instruction:
시드 지시사항: 두 제품의 제목이 주어졌을 때, 두 제품이 유사한지, 함께 구매되거나 조회될 가능성이 있는지를 예측하세요. 주어진 선택지 중에서만 답을 선택하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
제품 1과 제품 2의 제목을 분석하여 두 제품이 유사한지, 함께 구매되거나 조회될 가능성이 있는지를 판단하고, 해당하는 선택지를 선택하세요.
생성된 지시사항 2
제품 1과 제품 2의 제목을 평가하여 두 제품 간의 관계를 가장 잘 설명하는 선택지를 고르세요.
생성된 지시사항 3
제품 1과 제품 2의 제목을 평가하여 두 제품의 유사성 및 함께 구매되거나 조회될 가능성을 판단한 후, 적절한 선택지를 선택하세요.
생성된 지시사항 4
두 제품의 제목을 기반으로 두 제품이 유사한지, 함께 구매되거나 조회될 가능성이 있는지를 예측하세요. 제공된 선택지 중에서 답을 선택하세요.
Unseen Instruction(학습에 사용되지 않음)
제품 1과 제품 2의 제목을 분석하여 두 제품 간의 관계를 나타내는 선택지를 고르세요.
입력:
제품 1: Monoprice 11952 폴리우레탄 교체용 이어 패드 (PID 8323 타입 헤드폰용) - 레드
제품 2: Monoprice Hi-Fi 경량 오버이어 헤드폰 - 블랙, 50mm 드라이버와 47인치 3.5mm 케이블 포함, Apple iPhone, iPod, Android 스마트폰, Samsung Galaxy 태블릿, MP3 지원
• 선택지:
A. 제품 1을 본 사용자는 제품 2를 구매할 가능성이 있다.
B. 제품 1을 본 사용자는 제품 2를 볼 가능성이 있다.
C. 제품 1은 제품 2와 유사하다.
출력:
B
###########################################################################################
Task 3. PRODUCT MATCHING (PM)
다른 두 플랫폼으로부터 추출된 상품명, 설명, 제조업체, 가격을 보고 그것이 같은 상품인지 예측하는 작업.
Instruction:
시드 지시사항: 두 제품의 제목, 설명, 제조사 및 가격을 주어진 정보에서 비교하여 동일한 제품인지 여부를 확인하고, 결과를 "예" 또는 "아니오"로 출력하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
두 제품의 제목, 설명, 제조사, 가격을 분석하여 동일한 제품이라면 "예"를 출력하고, 그렇지 않으면 "아니오"를 출력하세요.
생성된 지시사항 2
두 제품의 세부 정보를 확인하여 동일한 제품인지 확인하세요. 출력은 "예" 또는 "아니오"만 가능합니다.
생성된 지시사항 3
제품 정보를 바탕으로 두 제품이 동일한지 아닌지를 예측하세요. 동일하면 "예", 아니면 "아니오"를 출력하세요.
생성된 지시사항 4
두 제품의 세부 정보를 비교하여 동일한 제품인지 확인하세요. 동일하면 "예", 그렇지 않으면 "아니오"를 출력하세요.
Unseen Instruction(학습에 사용되지 않음)
두 제품의 제목, 설명, 제조사, 가격을 비교하여 동일한 제품인지 판단하고 간단한 "예" 또는 "아니오" 답변을 출력하세요.
입력:
– 제품 1: 제목 - marine aquarium 2.5 virtual undersea paradise win/mac, 설명 - marine aquarium 2.0은 실제 물고기를 돌볼 필요 없이 집에서 작은 수중 낙원을 가지는 것과 같습니다, 제조사 - encore software, 가격 - 19.99
– 제품 2: 제목 - encore software 25020 - marine aquarium 2.5 (hybrid) - win 95 98 me 2000 xp/mac 10.1 이상, 설명 - encore software 25020: marine aquarium 2.5 하이브리드, 모두가 이야기하는 가상 어항 현상을 발견하세요! marine aquarium 2.5는 26종의 이국적인 물고기를 통해 데스크탑에서 놀라운 수중 낙원을 제공합니다, 제조사 - encore software, 가격 - 19.97
출력:
예
###########################################################################################
Task 4. SENTIMENT ANALYSIS (SA)
주어진 유저의 리뷰를 보고 해당 상품에 대해 유저가 표출하는 감성(Sentiment)이 무엇인지 식별하는 작업.
Instruction:
시드 지시사항: 사용자의 리뷰를 바탕으로 사용자의 감정을 주어진 선택지에서 식별하세요. 선택지 중 하나를 답으로 사용하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
제공된 사용자의 리뷰에서 감정을 평가하고, 적절한 감정 옵션을 선택하여 답하세요.
생성된 지시사항 2
제공된 선택지 중에서 사용자가 리뷰에서 표현한 감정을 확인하고, 해당 옵션을 선택하여 응답하세요.
생성된 지시사항 3
사용자의 리뷰에서 감정 표현을 신중하게 평가하여, 긍정적 또는 부정적인 강한 표현이 있는지 확인하세요. 분석을 바탕으로 제공된 선택지에서 가장 적합한 감정 옵션을 출력하세요.
생성된 지시사항 4
사용자의 리뷰 텍스트를 분석하여 표현된 전반적인 감정을 파악한 후, 식별된 감정에 따라 제공된 감정 옵션(예: A: 매우 긍정적, B: 긍정적, C: 중립적, D: 부정적, E: 매우 부정적)을 선택하세요.
Unseen Instruction(학습에 사용되지 않음)
사용자의 리뷰를 분석하고 주어진 선택지에 따라 감정을 결정하세요.
입력:
이 제품은 제 아이들이 두꺼운 머리카락을 가지고 있어 정말 완벽해요. 이걸로 예쁜 헤어 번을 만들 수 있어요. 모든 사람에게 추천하고 싶어요.
선택지:
A. 매우 긍정적
B. 긍정적
C. 중립적
D. 부정적
E. 매우 부정적
출력:
A
###########################################################################################
Task 5. SEQUENTIAL RECOMMENDATION (SR)
유저의 상품과의 상호작용을 보고, 이 사람이 다음으로 관심있을만한 상품을 예측하는 작업.
Instruction:
시드 지시사항: 사용자가 이전에 구매한 제품들을 바탕으로 주어진 선택지에서 아이템들을 순위별로 매기고, 사용자가 다음에 구매할 가능성이 가장 높은 제품을 예측하세요. 주어진 선택지 중 하나로 답하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
사용자의 이전 구매 내역을 기반으로 선택지의 아이템들을 순위별로 매기고, 사용자가 다음에 관심을 가질 제품을 예측하세요.
생성된 지시사항 2
선택지에 있는 아이템들을 순위별로 매기고, 사용자의 이전 구매를 분석하여 사용자가 다음에 구매할 제품을 예측하세요.
생성된 지시사항 3
사용자의 구매 내역은 사용자의 선호를 나타냅니다. 선택지에서 사용자의 선호를 바탕으로 아이템들을 순위별로 매기고, 사용자가 다음에 구매할 가능성이 가장 높은 제품을 출력하세요.
생성된 지시사항 4
사용자의 구매 내역을 바탕으로 주어진 선택지에서 아이템들을 순위별로 매기고, 사용자가 가장 가능성이 높은 제품을 출력하세요.
Unseen Instruction(학습에 사용되지 않음)
사용자의 구매 내역을 바탕으로 사용자의 의도를 추정하고, 주어진 선택지에서 사용자가 가장 가능성이 높은 제품을 예측하세요.
입력:
1st: M-Edge Latitude Kindle Jacket, Pink (Fits Kindle Keyboard). 전자기기. 컴퓨터 및 액세서리. M-Edge.
2nd: Marware jurni Kindle Fire Case Cover, Black (will not fit HD or HDX models). 전자기기. 컴퓨터 및 액세서리. Marware.
3rd: NETGEAR AC1600 Dual Band Wi-Fi Gigabit Router (R6250). 전자기기. 컴퓨터 및 액세서리. NETGEAR.
4th: iMBAPrice 110014-1 (1-Pack) Gold Plated 2.4 GHz 3-Way Coaxial Cable Splitter F-Type Screw for Video Satellite Splitter/VCR/Cable Splitter/TV Splitter/Antenna Splitter/RG6 Splitter. 전자기기. 액세서리 및 용품...
선택지:
A: T POWER 9v 12v (6.6ft Long Cable) Ac Dc Adapter Compatible with X Rocker Pro Series H3 51259 Video Gaming Chair 51231,51396 & V Rocker 5130301...
B: Boys Floatsafe Flotie Soft Fabric Armbands Floatie Blue For Kids Ages 1 To 3. Floatsafe Floatie
C: Anker iPhone Charger, Powerline Lightning Cable (3ft), MFi Certified for iPhone Xs/XS Max/XR/X
D: Curtain Drapery Rod w/brackets Small - Wrought Iron Hand Made. Home & Kitchen. Home Decor. Hand Crafted & American Made!
...
T: Lorex ACCMIC1 Indoor Audio Microphone Accessory for Surveillance DVR’s (Black). 전자기기. 카메라 및 사진. Lorex
출력:
A
###########################################################################################
Task 6. MULTI-CLASS PRODUCT CLASSIFICATION (MPC)
주어진 쿼리와, 상품의 명칭을 보고 두 상품과 쿼리가 얼마나 관련이 있는지 예측하는 작업.
Instruction:
시드 지시사항: 쿼리와 제품 제목 간의 관련성을 분석하여 주어진 선택지 중 적합한 답을 선택하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
쿼리와 제품 제목을 분석하여 쿼리와 제품 간의 관련성을 판단하고, 제공된 선택지에서 적절한 옵션을 선택하세요.
생성된 지시사항 2
쿼리와 제품 제목 간의 관련성을 평가하고, 주어진 선택지 중 가장 정확한 옵션을 선택하세요.
생성된 지시사항 3
쿼리와 제품 제목을 분석하여 두 간의 관련성을 평가하고, 이를 가장 잘 설명하는 옵션을 선택하세요.
생성된 지시사항 4
주어진 쿼리와 제품 제목 간의 관련성을 결정하고, 제공된 옵션 중 하나를 선택하여 응답하세요.
Unseen Instruction(학습에 사용되지 않음)
쿼리와 제품 제목을 비교하여 제품이 쿼리 사양을 완전히 충족하는지 판단하고, 그 관련성을 가장 잘 설명하는 옵션을 선택하세요.
입력:
쿼리: aj1 black and white
제품: Nike Men’s Air Jordan 1 Low White/Gym Red, White/Gym Red/Black, 9
선택지:
A: 제품이 쿼리와 관련이 있으며, 쿼리 사양을 모두 충족합니다.
B: 제품은 다소 관련이 있습니다. 쿼리의 일부 측면을 충족하지 않지만 기능적인 대체품으로 사용할 수 있습니다.
C: 제품이 쿼리를 충족하지 않지만, 쿼리에 정확히 맞는 제품과 함께 사용할 수 있습니다.
D: 제품은 쿼리와 관련이 없습니다.
출력:
B
###########################################################################################
Task 7. PRODUCT SUBSTITUTE IDENTIFICATION (PSI)
주어진 유저의 검색 쿼리와 연관 가능성이 있는 상품을 보고, 해당 상품이 유저의 쿼리를 대체할 수 있는지 판단하는 작업.
Instruction:
시드 지시사항: 쿼리와 제품을 주어진 조건에 따라 분석하여 제품이 쿼리에 대해 다소 관련이 있는지 확인하세요. 쿼리를 완전히 충족하지 않지만 기능적인 대체품으로 사용할 수 있다면 '예'로 답하고, 그렇지 않으면 '아니요'로 답하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
제품이 쿼리의 대체품이 될 수 있으면 '예'로 답하고, 그렇지 않으면 '아니요'로 답하세요.
생성된 지시사항 2
제품이 쿼리에 대한 적합한 대체품이라면 '예'로, 그렇지 않으면 '아니요'로 답하세요.
생성된 지시사항 3
제품이 쿼리의 요구 사항을 완전히 충족하지 않더라도 대체품으로 사용할 수 있는지 확인하세요. 가능하다면 '예'로 답하고, 그렇지 않으면 '아니요'로 답하세요.
생성된 지시사항 4
제품이 쿼리의 일부 요구 사항을 충족하지 않지만 대체품으로 기능할 수 있는지 평가하세요. 이 평가에 따라 '예' 또는 '아니요'로 이진 답변을 제공하세요.
Unseen Instruction(학습에 사용되지 않음)
제품이 쿼리에 대한 대체품이 될 수 있는지 평가하고, '예' 또는 '아니요'로 답하세요.
입력:
쿼리: fissler magic smooth-edge can opener
제품: KUKINO Manual Can Opener, Multifunction Handheld Food Grade Stainless Steel Can Openers, Black.
출력:
아니요
###########################################################################################
Task 8. QUERY-PRODUCT RANKING (QPR)
주어진 유저의 검색 쿼리와, 연관 가능성이 있는 상품의 리스트를보고, 쿼리와의 연관성 순위를 산출하는 작업.
Instruction:
시드 지시사항: 쿼리와 제품 목록(A, B, C, ...)에 대해 각 제품의 제목을 평가하고, 쿼리와의 관련성을 기준으로 제품을 내림차순으로 정렬하여 가장 관련성이 높은 제품이 맨 위에 오도록 순위를 매기세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
각 제품 제목을 평가하고 쿼리와의 관련성을 분석한 후, 가장 관련성이 높은 제품이 가장 위에 오도록 내림차순으로 제품을 정렬하세요.
생성된 지시사항 2
제품 A, B, C 등을 제공된 쿼리와의 관련성에 따라 순위를 매기고, 가장 관련성 높은 제품이 가장 위에 오도록 정렬된 목록을 출력하세요.
생성된 지시사항 3
쿼리와 각 제품 제목을 분석하고, 쿼리와의 관련성에 따라 제품을 내림차순으로 정렬하세요. 가장 관련성 높은 제품이 맨 위에 오도록 순위를 매기고, 그 목록을 출력하세요.
생성된 지시사항 4
각 제품 제목의 쿼리와의 관련성을 평가하고, 내림차순으로 정렬하여 가장 관련성 높은 제품이 맨 위에 오도록 순위를 매기세요.
Unseen Instruction(학습에 사용되지 않음)
쿼리와 각 제품의 제목을 비교하여 관련성을 평가한 후, 가장 관련성이 높은 제품이 목록의 맨 위에 오도록 내림차순으로 정렬된 제품 목록을 출력하세요.
입력:
쿼리: 하이힐 신발 의자
제품 A: ORE International HBB1826 하이힐 신발 디스플레이 보석함, 치타 프린트.
제품 B: 코코넛 플로트 레드 하이힐 거대한 풀 플로트 (어른용), 91.
제품 C: Wildkin 어린이용 나무 벤치 좌석, 장난감 상자 벤치 좌석, 안전 힌지, 등받이, 두 개의 손잡이 특징, 크기 32 x 15.5 x 27 인치 (Wild Side) (LOD71001).
출력:
A, C, B
###########################################################################################
Task 9. ANSWERABILITY PREDICTION (AP)
상품과 관련된 질문과 해당 상품의 리뷰를 보고, 해당 질문이 답변 가능한지 판단하는 작업.
Instruction:
시드 지시사항: 질문과 관련된 문서가 제공될 때, 문서의 정보가 질문에 답할 수 있는지 평가하고, 답할 수 있으면 "yes", 그렇지 않으면 "no"를 출력하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
질문에 대한 답변 가능성을 평가하여, 문서에 질문을 해결할 수 있는 정보가 포함되어 있으면 "yes", 그렇지 않으면 "no"를 출력하세요.
생성된 지시사항 2
질문과 그에 해당하는 문서를 분석한 후, 문서가 질문을 답할 수 있는지 예측하세요. 문서가 관련 정보를 제공하면 "yes", 그렇지 않으면 "no"를 출력하세요.
생성된 지시사항 3
질문과 관련된 문서가 주어지면, 문서의 정보가 질문에 답할 수 있는지 평가하세요. 문서가 질문에 답하는 내용을 포함하면 "yes", 그렇지 않으면 "no"를 출력하세요.
생성된 지시사항 4
주어진 문서가 질문에 답할 수 있으면 "yes", 그렇지 않으면 "no"를 출력하세요.
Unseen Instruction(학습에 사용되지 않음)
주어진 문서로 질문에 답할 수 있는지 예측하고 "yes" 또는 "no"로 응답하세요.
입력:
질문: 패들(노)은 어디서 구입하나요, 아니면 패들이 포함되어 있나요?
문서: 매우 만족스러운 구매와 가격! 제 아들이 몇 시간 동안 이걸 가지고 놀아요. 조립도 쉬웠고 그는 정말 좋아해요! 이 구매에 매우 만족합니다. 조립할 때 약간 어색한 점이 있었는데, 설명서에 두 사람이 필요하다고 적혀 있더군요. 정말 튼튼하게 잘 만들어졌어요. 훌륭한 가치. 온 가족이 함께 즐길 수 있는 재미와 운동! 오늘 바로 구입하고 여러 해 동안 사용할 수 있어요. 튼튼하고 잘 만들어져서 앞으로 몇 년 동안 사용할 수 있을 거예요! 아들이 혼자서 공을 할 수 있다는 점이 정말 멋져요 ;)
출력:
아니오
###########################################################################################
Task 10. ANSWER GENERATION (AG)
상품과 관련된 질문과, 도움이 되는 문서로써의 리뷰를 보고, 해당 질문에 대한 답을 생성하는 작업.
Instruction:
시드 지시사항: 질문과 관련된 문서가 주어졌을 때, 문서의 정보를 기반으로 질문에 대한 답을 생성하세요.
GPT-4가 생성한 지시사항(Instruction Tuning의 성능을 위해 생성됨):
생성된 지시사항 1
문서에 포함된 정보를 활용하여 질문에 대한 답을 생성하세요.
생성된 지시사항 2
지원 문서에서 정보를 추출하여 주어진 질문에 답하세요.
생성된 지시사항 3
주어진 질문에 대해 지원 문서를 사용하여 답변하세요.
생성된 지시사항 4
지원 문서에서 정보를 추출하여 주어진 질문에 대한 답을 생성하세요.
Unseen Instruction(학습에 사용되지 않음)
지원 문서에서 제공된 정보를 사용하여 주어진 질문에 대한 답을 생성하세요.
입력:
질문: 하나의 센서로 추가 수신기를 연결할 수 있나요? 즉, 하나의 센서가 신호를 받아서 두 개의 수신기로 보낼 수 있나요?
문서: 제 1200피트 길이의 진입로에서 이 장치는 완벽하게 작동합니다. 빠진 기능은 센서가 여러 개일 때 각기 다른 알림 패턴을 가질 수 있는 옵션입니다. 예를 들어 1, 2, 3 또는 4번의 비프 소리가 어느 지역에서 움직임이 오는지 알려줍니다. 긴 거리에서도 신뢰할 수 있는 모션 센서를 원한다면 이 장치가 적합합니다. 시스템을 두 주 전에 설치했고, 집에서 진입로 끝까지 300피트 떨어진 곳에 설치했는데, 지금까지 한 번도 실패하지 않았습니다. 비 오는 날에도 문제 없이 잘 작동했으며, 거짓 알림도 없었습니다. 진입로에 거의 40피트가 남았고, 약간 경사진 진입로 끝에 설치했습니다. 큰 차량(예: 쓰레기차, 트랙터, 잔디깎이 등)이 천천히 지나갈 때도 알람이 울리지만, 빠르거나 작은 차량은 감지되지 않아 매우 좋습니다. 두 개의 수신기가 있으며, 하나는 실내, 다른 하나는 뒤쪽에 있습니다. 이로 인해 알람이 매우 유용합니다. 여러 브랜드의 알람 시스템을 구입했었는데, 가격 대비 실망할 이유가 없다고 생각합니다. 이 장치는 수신기에서 약 200피트 떨어져 있으며, 잘 작동합니다. . .
출력:
네... 단, 모든 수신기가 동일한 DIP 스위치 설정을 갖추고 있어야 합니다.
'A.I.(인공지능) & M.L.(머신러닝) > LLM' 카테고리의 다른 글
DeepSeek-V3 (0) | 2025.01.14 |
---|---|
DeBERTa: Decoding-enhanced BERT with Disentangled Attention 느낌만 맛보기 (0) | 2024.12.24 |
DSPy(Declarative Self-improving Language Programs, pythonically) (1) | 2024.12.16 |
Graph Retrieval Augmented Generation(Graph-RAG) 톺아보기 (1) | 2024.12.05 |
Mamba: Linear-Time Sequence Modeling with Selective State Spaces / Non-Attention 기반의 Sequence Model에 대한 접근 (0) | 2024.12.03 |