플래티어 연구소 테크 블로그

DeepSeek 살펴보기

DeepSeek를 살펴보려면 좀 길다. 1. DeepSeek LLM (https://arxiv.org/pdf/2401.02954)2. DeepSeek MOE (https://arxiv.org/pdf/2401.06066)3. DeepSeek-V2 (https://arxiv.org/pdf/2405.04434)4. DeepSeek-V3 (https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)5. DeepSeek-R1 (https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf) 전부 나름의 Contribution을 주장하고 있는데 ...오늘 살펴볼만한 것은 R1의 방법론이기 때..

2025. 1. 31. 17:01 / Tech하렴

A.I.(인공지능) & M.L.(머신러닝)/LLM

Custom Model Training을 위한 Hugging Face Trainer 구조 파악하기

Hugging Face의 Trainer는 매우매우 편리한 도구이지만 Tainer의 코드는 5천줄이 넘어갈 정도로 너무 거대하기 때문에다시 뜯어볼 염두가 나지 않아, 스스로 정리하려고 작성하였다.Hugging Face는 몇 가지 매우 간편한 툴을 제공한다 1. Automodel Class모델의 구조를 Transformers 라이브러리 속에 처박아 두었다.Automodel.from_pretrained(repo_id)로 호출 시model.safetensors와 config.json 파일을 읽어 적절한 모델에 파라미터를 적합시키는 작업을 수행한다.model = ModernBertModel.from_pretrained(save_dir) 이런 방식으로 적절한 모델이 있다면, 적절한 가중치를 가져와서 매핑한다.문제는..

2025. 1. 22. 19:02 / Tech하렴

DevOps와 Infra/DevOps 일반

Kickstart를 활용한 Linux 자동설치 템플릿 작성 및 자동화

이 글은 Rocky Linux와 같은 Red Hat 계열 운영 체제에서 Kickstart를 사용해 자동화된 무인 설치 환경을 구성하는 방법입니다. 최종목표는 Kickstart 템플릿을 작성 & Ansible에 결합하여 효율적인 환경을 구성하는 데 목적을 두고 있습니다.다음 단계에서는 Kickstart 템플릿을 Ansible과 통합하여 동적인 값 설정과 대규모 배포 환경에 적용 방안을 다룰 예정입니다.KickstartKickstart는 Red Hat 계열의 Linux 배포판에서 무인 설치를 자동화 하는데 사용되는 파일 기반의 설치 방식입니다. Kickstart를 정의하여 일관성 있는 시스템 설치가 가능합니다.특히 Kickstart는 Infrastructure as Code (IaC) 환경을 구성할 때 유..

2025. 1. 20. 14:10 / Tech정또해방

검색엔진/Opensearch

[opensearch] 인덱스 snapshop 뜨는 방법

먼저 compose ymal 파일에 path.repo 경로가 설정되어있어야한다.이 경로는 인덱스 snapshot 파일이 저장되는 위치이다. environment- path.repo=/mnt/snapshots volumes- /mnt/snapshots:/mnt/snapshots 이렇게 설정해놓으면 해당 디렉토리 경로에 snapshot 이 저장되도록 설정한 것이다.rebuild하고 opensearch dashboard - dev tool에 들어간다. PUT _snapshot/my_backup{ "type": "fs", "settings": { "location": "/mnt/snapshots", "compress": true }}아까 설정한 경로를 location 에 입력하고 해당 쿼리를 실..

2025. 1. 20. 11:43 / Tech쏜

DevOps와 Infra/DevOps 일반

SMTP 메일 전송 프로토콜 확인과정

상처를 많이 받아 감정이 들어간 워딩이 많이 들어감. 화풀이식으로 작성한 글.프로젝트를 수행하는데 SMTP 이 간단한 장르로 한달이상 애를 먹었다. 해서. 비슷한 일이 발생하면 빠르게 대응하기 위해서 이력과 기록물을 남긴다. 이는 보통의 수행 레벨에서 정보(부정확한)만을 가지고 해결하기 위한 혼자만의 처절한 싸움이며 해결 솔루션을 도출하기 위한 노력이다.첫번째 기본 정보SMTP를 진행하는데 전달 받은 내용은 고작 해봐야 아래와 같은 정보였다.smtp server : abc.smtp-domain.comsmtp port : 25smtp user : sendersmtp password : pw-samplesmtn sender : sender@domain.com 첫번째 허들이었다. 잘못된 정보.위와 같이 내용..

2025. 1. 16. 11:09 / Tech정또해방

A.I.(인공지능) & M.L.(머신러닝)/LLM

DeepSeek-V3

DeepSeek-V3는 6710억 개(토큰당 370억 개 활성) 파라미터를 탑재한 강력한 Mixture-of-Experts(MoE) 기반 언어 모델이다. 효율적인 추론과 비용 효율적인 학습을 위해 DeepSeek-V2에서 검증된 Multi-head Latent Attention(MLA)와 DeepSeekMoE 아키텍처를 적용했다. 또한 전문가 분산을 부가 로스 없이 구현하는 “auxiliary-loss-free” 접근법과 여러 토큰을 한 번에 예측하는 “multi-token prediction” 방식을 도입했다.이 모델은 14.8조 개에 달하는 다양한 고품질 토큰으로 사전학습을 진행했다. 이후 감독학습(Supervised Fine-Tuning)과 강화학습(Reinforcement Learning)을 통해..

2025. 1. 14. 10:00 / Tech코알라

A.I.(인공지능) & M.L.(머신러닝)/A.I. Information

[AI] Hard Negatives 란? - reranker 학습에 필요한 DataSet

Hard Negatives는 딥러닝 모델, 특히 검색 모델이나 임베딩 모델의 학습 데이터에서 의미적으로 정답과 비슷하지만 정답은 아닌 문서를 말한다.이들은 학습 데이터를 더욱 어려운 문제로 만들어, 모델이 단순한 학습 패턴에 의존하지 않고, 더 정교한 학습을 유도할 수있게 한다는 말이다. Hard Negatives란 무엇인가?Hard Negative 정의Hard Negatives는 쿼리(Query)와 양성 문서(Positive Sample) 사이의 유사한 맥락을 가지지만, 실제로는 정답이 아닌 문서이다. 예를 들어,Query: "Python 프로그래밍 기초 가이드"Positive: "Python 초보자를 위한 프로그래밍 입문서"Hard Negative: "Python 고급 프로그래밍 기법 소개"Hard ..

2025. 1. 6. 11:32 / Tech쏜

Frontend (Next.js Tailwind Typescript)/Next.js

[Javascript] 제너레이터와 이터레이터 필요성

ES6부터 도입된 기능으로, 언어나 라이브러리 차원에서 제공되는 반복(iteration)과 비동기 흐름 제어를 유연하게 다룰 수 있게 해준다. [ 필요성 ]자바스크립트의 핵심 개념, 이터레이터와 제너레이터데이터 컬렉션을 효율적으로 다루기 위해 자바스크립트는 이터레이터(Iteratior)와 제너레이터(Generator)라는 두 가지 개념을 제공한다. 이터레이터는 "반복 가능한" 객체들을 위한 프로토콜을 정의하며, 제너레이터는 이터레이터를 사용하여 값을 순차적으로 생성하는 함수이다. 이 두 개념은 자바스크립트에서 비동기 처리, 데이터 스트림 처리 등 다양한 상황에서 유용하게 사용된다. [ 정리 ]1. 데이터를 순회하는 표준화된 방식 제공 2. 커스텀 반복 로직 구현 - 기본 자료구조 외에 사용자 정의 객..

2025. 1. 6. 10:23 / Tech쏜

A.I.(인공지능) & M.L.(머신러닝)

[유치원과정] 트랜스포머 이론 - 인코더 | Multi-Head Attention

프랑스어를 영어로 변역하고자 할 때, 인코더는 프랑스어를 표현하는 방법을 학습한 다음, 그 결과를 디코더에 보낸다. 인코더에서 학습한 표현을 입력받은 디코더는 최종적으로 영어로 변역한 문장을 생성한다. 어떻게 작동하는 걸까?? 먼저 인코더 부터 알아야한다. 입력 문장 프랑스어는 가장 먼저 인코더에 들어간다.인코더는 여러 개의 층(레이어)를 쌓을 수 있다. 결과적으로 인코더는 무엇을 얻기 위한 작업일까?인코더는 표현 결과를 얻기 위한 작업을 수행한다.즉, 최초 인코더에 대한 입력값으로 문장을 넣게 되고, 최종 인코더의 결과로 입력 문장에 따르는 표현 결과를 얻는다. 여기서 말하는 표현 결과란 무엇일까?인간의 문장을 컴퓨터가 이해할 수 있도록 하려면 어떻게 변환해줘야할까?일단은 "숫자" 일거고... 문장을..

2025. 1. 5. 20:37 / Tech쏜

기타/IT기타

RxDB 란 무엇인가? (opensearch 연동)

🚀 Quickstart | RxDB - JavaScript DatabaseWelcome to the RxDB Quickstart. Here we'll create a simple realtime TODO-app with RxDB to demonstrate the basic concepts.rxdb.infoRxDB가 Frontend에 적합한 이유RxDB(Reactive Database)는 NoSQL 데이터베이스로, UI 중심의 실시간 상태 변경 감지가 중요한 Frontend 애플리케이션에 최적화된 데이터베이스입니다. 기존 SQL이 Frontend에 적합하지 않은 이유초기 빌드 크기와 시작 시간SQL 데이터베이스는 초기 빌드 크기가 크며, 애플리케이션 시작 시간이 길어질 수 있습니다.Frontend 환경..

2025. 1. 2. 17:34 / Tech쏜

기타

Mac 에서 window 도커로 띄우기

docker-compose.yamlservices: windows: image: dockurr/windows container_name: windows cap_add: - NET_ADMIN ports: - 8006:8006 - 3389:3389/tcp - 3389:3389/udp stop_grace_period: 2m restart: on-failure environment: VERSION: "win10" RAM_SIZE: "6G" CPU_CORES: "6" DISK_SIZE: "20G" KVM: "N" # KVM 비활성화 volumes: - ./win10:/storage..

2024. 12. 31. 13:27 / Tech쏜

Next.js 개발 가이드/06. Learn Next.js 공식 가이드

[Next.js] Redirecting - 리다이렉팅

useRouter() Hook을 사용한 클라이언트 사이드 리디렉션사용자가 버튼을 눌렀을 때 특정 페이지로 이동하도록 하고 싶을 때 사용한다.import { useRouter } from 'next/router';export default function Page() { const router = useRouter(); return ( router.push('/dashboard')}> Dashboard );} router.push('/dashboard')를 호출하면 /dashboard 페이지로 클라이언트 사이드에서 이동한다.장점: 사용자가 현재 보고 있는 페이지를 리로드하지 않고 이동 가능.활용 사례: 로그인 후 대시보드로 이동, 특정 버튼 클릭 시 이동 등. next.co..

2024. 12. 31. 08:50 / Tech쏜

Next.js 개발 가이드/06. Learn Next.js 공식 가이드

[Next.js] Dynamic Routes - 동적 라우트

Next.js의 Dynamic Routes를 이해하기 쉽게 설명하겠습니다. Dynamic Segments (동적 세그먼트)설명: 경로 일부가 동적으로 변할 수 있도록 설정하는 방식파일명 규칙: 대괄호([ ])로 감싼 파일명 사용예: [id].js, [slug].js폴더 구조pages/ blog/ [slug].js매칭되는 경로/blog/a → slug = 'a'/blog/b → slug = 'b'코드import { useRouter } from 'next/router';export default function BlogPost() { const router = useRouter(); return Post: {router.query.slug};}출력 결과/blog/a → 화면에 Post: a/bl..

2024. 12. 31. 08:34 / Tech쏜

A.I.(인공지능) & M.L.(머신러닝)/딥러닝

PyTorch(used GPU) 코드를 독립 실행파일로 패키징

실행 환경 : MAC M2파이썬 버전 : Python 3.12.0 1. pyinstaller 안써파이썬 패키징하면 pyinstaller 이 대표적이다.pytorch로 짧은 학습코드를 패키징하려고하는데 종속성 문제 때문에 약간의 씨름을 했었다. torch error : NameError name 'name' is not definedI'm currently attempting to create an executable using PyInstaller, but I've encountered an error : NameError: name 'name' is not defined caused by the line of code below. model = lp.stackoverflow.com정리하자면 다음과 같..

2024. 12. 27. 09:27 / Tech쏜

A.I.(인공지능) & M.L.(머신러닝)/딥러닝

Neural Prophet 삼성전자 주가 예측

기존 Prophet의 문제점기존의 Prophet은 데이터의 비선형적인 요소 및 연속함수의 특징들을 반영하거나시계열 데이터의 패턴 변동성이 큰 부분을 반영하기엔 부족한 패키지였다. 그래서 메타는 기존 Prophet 모델에 신경망을 추가하여 시계열 분석을 할 수 있도록 만든 것이 Neural Prophet이다. Prophet은 시계열 예측 성능보다는 손쉬운 사용 예측 결과에 해석에 초점을 맞춘 알고리즘이다.추세, 주기성, 공휴일 효과 등을 분리해서 제공해주기 때문에, 수요예측과 같은 비즈니스적인 시사점이 필요할 때 유용하게 활용될 수 있다. Prophet은 주로 전체 데이터의 글로벌 패턴에 초점을 맞추는 알고리즘으로 설계되었다.그래서 단기 시점(Local Context) 예측에 한계를 가지고 있다. 예를 들..

2024. 12. 25. 20:13 / Tech쏜

A.I.(인공지능) & M.L.(머신러닝)/LLM

DeBERTa: Decoding-enhanced BERT with Disentangled Attention 느낌만 맛보기

세세하게 살펴보기엔 알아야 할 지식들이 많으니 간단하게만 살펴보자.Microsoft에서 발표하였으며, 2023년 ICLR에 Accept 된 [논문]이다. 논문에서도 3장에서 딱 두 가지의 차별점만 언급한다. 1. DISENTANGLED ATTENTION 2. ENHANCED MASK DECODER 간단하게 살펴보자DISENTANGLED ATTENTION이런 짓거리를 왜 하는지를 이해하려면 Transformer의 구조적 이해가 필수적이다.사실 Transformer에서도 충분한 고려를 진행하고 있지만, 부족했나보다. 핵심은 Position이다. Transformer의 장점이 무엇인가.기존 RNN에서 순차적으로 처리되던 정보를, Matrix형태로 표현할 수 있게 되었다. 그런데 Matrix의 개별 Row는 ..

2024. 12. 24. 13:10 / Tech하렴

A.I.(인공지능) & M.L.(머신러닝)/LLM

eCeLLM 논문 리뷰: Instruction Tuning for E-Commerce (Data Example 추가)

이젠 진짜 LLM의 시대가 도래하였다.아키텍처 중심의 발전이 대부분이였던 자연어 처리 관련 논문들에서도LLM을 고려하지 않는 논문이 없을 정도로 많은 논문이 LLM과 밀접한 연관이 있다. 연구들을 살펴보면 다음과 같은 분류로 나눠볼 수 있을 것 같다.1. 이미 만들어진 LLM을 잘 써먹고자 하는 부류 (ex: Prompt Engineering)2. LLM을 특정 작업에 특화시키는 방법론에 대해 고민하는 부류 (ex: LLM Tune Method)3. LLM의 뼈대(아키텍처)에 대해 고민하는 부류 (ex: SSM, Mamba, Transformers)4. LLM의 성능최적화에 대해 고민하는 부류 (ex: 1bit-LLM)아마 위의 넷 정도로 나눠서 생각해 볼 수 있을 것이다. (물론 더 많지만) 지금 살펴..

2024. 12. 23. 14:18 / Tech하렴

A.I.(인공지능) & M.L.(머신러닝)/LLM

DSPy(Declarative Self-improving Language Programs, pythonically)

프롬프트 엔지니어링을 위해 흔히 사용하는 LangChain 등의 프레임워크 에서 특정 작업을 위해 사용하는 프롬프트의 크기가 굉장히 크다.특히, trial and error 방식으로 사전에 수작업으로 작성된 프롬프트를 사용하기 때문에 보편적이지만, 성능이나 효율성 측면에서는 최선이 아닐뿐더러, 확장성 측면에서는 한계가 있다.이러한 프롬프트 엔지니어링을 극복하기 위해서 파이썬 스타일로 작성된 선언적이고 스스로 개선되는 기능을 갖춘 자연어 처리 프로그램인 DSPy가 나왔다, 이 프레임워크에서는 LLM 파이프라인이 무엇을 할 것인지를 명확히 선언하면, 내부적으로 스스로 학습하고 최적화하여 성능을 향상시키는 기능이 있다. DSPy는 간단한 API를 통해 빠르게 시작할 수 있지만, AI 시스템을 구현하는 과정은 ..

2024. 12. 16. 06:00 / Tech코알라

A.I.(인공지능) & M.L.(머신러닝)/LLM

Graph Retrieval Augmented Generation(Graph-RAG) 톺아보기

컴퓨팅 성능의 발전, 초거대 언어 모델의 등장은 Natural Language Processing 분야를 비약적으로 발전시켰다.그리고 이젠 어떻게 이미 만들어진 LLM을 고도화 시킬까의 문제를 마주하고 있다. Chain of Thought 이후 생겨난 수많은 프롬프트들이나Retrieval Augmented Generation 를 이용한 생성이전에 소개한 LangChain이나 LangGraph도 결국 LLM을 효과적으로 사용하기 위한 Tool Chain이다. 오늘 소개할 것은 효과적인 지식 구조이자최근에 만들어지는 RAG를 고도화 하는 새로운 기법인 GraphRAG이다.Knowledge Graph본 내용을 이해하기 위해서는 먼저 Graph에 대해 알아야 할 것이다.물론 너무 깊게 들어갈 수는 없기에, 지식..

2024. 12. 5. 08:44 / Tech하렴

A.I.(인공지능) & M.L.(머신러닝)/LLM

Mamba: Linear-Time Sequence Modeling with Selective State Spaces / Non-Attention 기반의 Sequence Model에 대한 접근

[논문]은 Mamba라는 이름의 Non-Attention 기반으로 순차적인 데이터를 추론하는 하나의 알고리듬이다. Mamba: Linear-Time Sequence Modeling with Selective State SpacesFoundation models, now powering most of the exciting applications in deep learning, are almost universally based on the Transformer architecture and its core attention module. Many subquadratic-time architectures such as linear attention, gated convolutionarxiv.org 어쩌다 ..

2024. 12. 3. 11:42 / Tech하렴