AI 활용 세미나 계획 -Draft

한치영

11 7월 2025 • 7 min read

1부: LLM 이론 기초 (90분)

1-1. 자연어 처리의 의미와 발전 (15분)

자연어 처리(NLP)의 개념과 중요성

자연어 처리의 정의: 인간의 언어를 기계가 이해하고 처리하는 기술
전통적 NLP 방법론의 한계와 딥러닝의 등장
자연어를 숫자로 바꾸는 과정 : 전사

1-2. Transformer 아키텍처: "Attention is All You Need" (20분)

Transformer의 등장 배경

RNN의 한계: 순차적 처리, Long-term dependency 문제
Attention 메커니즘의 필요성과 병렬 처리의 중요성

Transformer 구조의 핵심

Self-Attention 메커니즘: Query, Key, Value의 개념(심화자료 첨부)
Multi-Head Attention의 작동 원리

Transformer의 혁신성

병렬 처리를 통한 학습 시간 단축
장거리 의존성 문제 해결
현재까지 de facto 지배적 아키텍처

1-3. GPT-2의 등장: "Language Models are Unsupervised Multitask Learners" (15분)

GPT-2의 핵심 개념

Unsupervised Learning을 통한 다중 태스크 학습
Zero-shot 성능: 별도 학습 없이 다양한 작업 수행
1.5B 매개변수로 달성한 획기적 성능

GPT-2의 의의

언어 모델의 범용성 입증
"이 목적으로 만든게 아닌데 되네?!"
생성형 AI의 가능성 제시

1-4. Scaling Law와 하이퍼파라미터 튜닝 (20분)

Scaling Law의 개념

모델 크기, 데이터량, 연산량과 성능의 관계
Power-law 관계: 로그 스케일에서의 선형 관계
Chinchilla Scaling Law와 최적 학습 토큰 수

Scaling Law의 실무적 의미

모델 성능 예측 가능성
리소스 투자 결정의 과학적 근거
한계효용 때문에 투자를 안 할 이유는 없다. -> 대자본 투입

하이퍼파라미터 튜닝

µTransfer: A technique for hyperparameter tuning - 가장 비용이 많이 들어가는 부분에 대한 해결책
LLM 특화 하이퍼파라미터: Top-p, Top-k, Temperature

1-5. 크기 경쟁과 멀티모달의 등장 (10분)

LLM 크기 경쟁의 역사

GPT-2 (9.8B) → GPT-3 (175B) → PaLM (540B) → GPT-4 (1T+) 발전 과정
"크기가 곧 성능"이라는 패러다임의 확산
빅테크 기업들의 모델 개발 경쟁

멀티모달 LLM의 등장

텍스트 한계 극복: 이미지, 음성, 비디오 처리
GPT-4V, Gemini, Claude 3의 멀티모달 능력
인간 인지 방식에 근접한 AI 시스템 구현

1-6. 효율화를 위한 기술들 (10분)

MoE (Mixture of Experts)

전문가 조합을 통한 효율적 모델 구조
조건부 계산으로 연산량 절약
Mixtral 8x7B 등 성공 사례 / Qwen3 등 중국발 모델들의 공통구조

Knowledge Distillation

Teacher-Student 모델을 통한 지식 전이
모델 압축과 성능 유지의 균형
온디바이스 AI 구현을 위한 핵심 기술

Quantization

성능 손실 최소화 방안

그럼에도 존재하는 한계들

할루시네이션 문제와 정보의 최신성 부족
도메인 특화 지식의 한계
이로 인한 RAG 등 보완 기술의 필요성

2부: AI 활용 기술 및 사례 (90분)

2-1. RAG (Retrieval-Augmented Generation) (30분)

2-1-1. RAG의 개념과 필요성

RAG의 작동 원리: 검색(Retrieval) → 증강(Augmentation) → 생성(Generation)
- 검색 대상의 우선순위
- 문서 임베딩 및 벡터 데이터베이스
최신 정보 반영과 도메인 특화 지식 활용

2-1-2. RAG 활용 사례

Perplexity 의 약진
"주어진 PDF에서 정보를 찾아줘"
기업 활용: KB국민카드의 이벤트 정보 관리, 200건 이상 문서 자동 업데이트

2-2. Function Call (10분)

2-2-1. Function Call 개념

LLM과 외부 도구 연동을 위한 구조화된 인터페이스
자연어 입력을 API 호출로 변환하는 과정
JSON 형태의 함수 호출 데이터 구조

2-2-2. Function Call 활용 사례

데이터 검색: 자연어 쿼리를 데이터베이스 검색으로 변환
- RAG가 Function Call의 특수한 형태인 이유
작업 실행: 일정 관리, 이메일 전송 등 특정 기능 실행
계산 작업: 수학적 연산, 통계 분석 등 전문 계산 수행

2-3. MCP (Model Context Protocol) (20분)

2-3-1. MCP의 개념과 목적

LLM 애플리케이션과 외부 도구 간 표준화된 통합 프로토콜
- 의도치 않은 애플리케이션들의 표준화 feat. eg-BIM의 시도.
M×N 문제를 M+N 문제로 해결하는 표준화 접근
호스트(LLM)-클라이언트-서버 아키텍처 구조

2-3-2. MCP 구성 요소

Tools: 모델이 제어하는 함수 호출 기능
Resources: 애플리케이션이 제어하는 데이터 소스
Prompts: 사용자가 제어

2-4. AI Agent (20분)

2-4-1. AI Agent의 개념과 특징

특정 목표 달성을 위한 자율적 AI 시스템
환경 인식, 의사결정, 행동 실행의 순환 구조
단순 반사형에서 목표 기반, 유틸리티 기반 에이전트

2-4-2. AI Agent 활용 사례

대 Agent 시대.. but 명확한 성공사례가 있는가?
Multi-Agent 패러다임

3부: 업무 활용법 (90분)

3-1. 유용한 도구들(30분)

3대장 + alpha 특징
- Google, OpenAI, Anthropic 중심으로
- 사내에 설치된 LLM - 자유롭게 쓰도록 오픈은 어렵지만...
주요 개념
- Token
- Temperature / Top P
- Reasoning (Thinking Model) - budget
- Tools - Structured output / Code Execution / Grounding
사용 팁.
- 프롬프팅
  - 왜 다시 시키는지 알려주기
  - 원하는 형태의 샘플
  - 차이점 설명
  - 명확한 제약사항

3-2. 자료 조사, 정리 (20분)

3-2-1. 웹의 자료로 만들어진 물건. 잘 찾는다.

검색에 최대한 활용하자.
perplexity, Deep (Re)search류
- 내부의 Agentic 동작

3-2-2. MarkDown으로 정리시키자

(사람이 보기에) 깔끔한 정리가 전혀 중요하지 않다.
최소한의 서식으로 구조화
직접 만들지 말고 검토를 하자

3-2-3. 모르는 것이 무엇인지 확인해보자

나한테 설명해줘 vs 내가 설명한 게 맞아?
*** 하려는데 ###이라는 키워드로 찾아봤어.

3-3. 개발 활용 (20분)

3-3-1. 계획

PRD 작성시키기
제약사항 MD로 남기기

3-3-2. (Vibe) Coding

계획한 문서를 제약사항으로 시작
검증도하고 테스트도 하고
- 너무 믿지는 말자

3-4. 사내 적용 사례 소개 (5분)

3-5. 너무 빨리 변해요 (15분)

3-5-1. 현실감이 사라지게 하는 뉴스

Prompt 엔지니어링..?
모델이 좋아지면서 자연스럽게 풀리는 - 혹은 풀릴 - 문제들
조바심 가질 필요는 없어요.

3-5-2. 느슨한 원칙

과학에 '절대'라는 것은 없다.
- 사람이 실수할 확률보다 낮아지더라도 0은 아니다
한가지 어려운 일을 할만한 여러 일로 쪼개자
무조건 처음부터 다시 시작이 아니라 중간에 시작할 수 있게 하자
- Context Dump의 중요