AI 활용 세미나 계획 -Draft
1부: LLM 이론 기초 (90분)
1-1. 자연어 처리의 의미와 발전 (15분)
자연어 처리(NLP)의 개념과 중요성
- 자연어 처리의 정의: 인간의 언어를 기계가 이해하고 처리하는 기술
- 전통적 NLP 방법론의 한계와 딥러닝의 등장
- 자연어를 숫자로 바꾸는 과정 : 전사
1-2. Transformer 아키텍처: "Attention is All You Need" (20분)
Transformer의 등장 배경
- RNN의 한계: 순차적 처리, Long-term dependency 문제
- Attention 메커니즘의 필요성과 병렬 처리의 중요성
Transformer 구조의 핵심
- Self-Attention 메커니즘: Query, Key, Value의 개념(심화자료 첨부)
- Multi-Head Attention의 작동 원리
Transformer의 혁신성
- 병렬 처리를 통한 학습 시간 단축
- 장거리 의존성 문제 해결
- 현재까지 de facto 지배적 아키텍처
1-3. GPT-2의 등장: "Language Models are Unsupervised Multitask Learners" (15분)
GPT-2의 핵심 개념
- Unsupervised Learning을 통한 다중 태스크 학습
- Zero-shot 성능: 별도 학습 없이 다양한 작업 수행
- 1.5B 매개변수로 달성한 획기적 성능
GPT-2의 의의
- 언어 모델의 범용성 입증
- "이 목적으로 만든게 아닌데 되네?!"
- 생성형 AI의 가능성 제시
1-4. Scaling Law와 하이퍼파라미터 튜닝 (20분)
Scaling Law의 개념
- 모델 크기, 데이터량, 연산량과 성능의 관계
- Power-law 관계: 로그 스케일에서의 선형 관계
- Chinchilla Scaling Law와 최적 학습 토큰 수
Scaling Law의 실무적 의미
- 모델 성능 예측 가능성
- 리소스 투자 결정의 과학적 근거
- 한계효용 때문에 투자를 안 할 이유는 없다. -> 대자본 투입
하이퍼파라미터 튜닝
- µTransfer: A technique for hyperparameter tuning - 가장 비용이 많이 들어가는 부분에 대한 해결책
- LLM 특화 하이퍼파라미터: Top-p, Top-k, Temperature
1-5. 크기 경쟁과 멀티모달의 등장 (10분)
LLM 크기 경쟁의 역사
- GPT-2 (9.8B) → GPT-3 (175B) → PaLM (540B) → GPT-4 (1T+) 발전 과정
- "크기가 곧 성능"이라는 패러다임의 확산
- 빅테크 기업들의 모델 개발 경쟁
멀티모달 LLM의 등장
- 텍스트 한계 극복: 이미지, 음성, 비디오 처리
- GPT-4V, Gemini, Claude 3의 멀티모달 능력
- 인간 인지 방식에 근접한 AI 시스템 구현
1-6. 효율화를 위한 기술들 (10분)
MoE (Mixture of Experts)
- 전문가 조합을 통한 효율적 모델 구조
- 조건부 계산으로 연산량 절약
- Mixtral 8x7B 등 성공 사례 / Qwen3 등 중국발 모델들의 공통구조
Knowledge Distillation
- Teacher-Student 모델을 통한 지식 전이
- 모델 압축과 성능 유지의 균형
- 온디바이스 AI 구현을 위한 핵심 기술
Quantization
- 성능 손실 최소화 방안
그럼에도 존재하는 한계들
- 할루시네이션 문제와 정보의 최신성 부족
- 도메인 특화 지식의 한계
- 이로 인한 RAG 등 보완 기술의 필요성
2부: AI 활용 기술 및 사례 (90분)
2-1. RAG (Retrieval-Augmented Generation) (30분)
2-1-1. RAG의 개념과 필요성
- RAG의 작동 원리: 검색(Retrieval) → 증강(Augmentation) → 생성(Generation)
- 검색 대상의 우선순위
- 문서 임베딩 및 벡터 데이터베이스
- 최신 정보 반영과 도메인 특화 지식 활용
2-1-2. RAG 활용 사례
- Perplexity 의 약진
- "주어진 PDF에서 정보를 찾아줘"
- 기업 활용: KB국민카드의 이벤트 정보 관리, 200건 이상 문서 자동 업데이트
2-2. Function Call (10분)
2-2-1. Function Call 개념
- LLM과 외부 도구 연동을 위한 구조화된 인터페이스
- 자연어 입력을 API 호출로 변환하는 과정
- JSON 형태의 함수 호출 데이터 구조
2-2-2. Function Call 활용 사례
- 데이터 검색: 자연어 쿼리를 데이터베이스 검색으로 변환
- RAG가 Function Call의 특수한 형태인 이유
- 작업 실행: 일정 관리, 이메일 전송 등 특정 기능 실행
- 계산 작업: 수학적 연산, 통계 분석 등 전문 계산 수행
2-3. MCP (Model Context Protocol) (20분)
2-3-1. MCP의 개념과 목적
- LLM 애플리케이션과 외부 도구 간 표준화된 통합 프로토콜
- 의도치 않은 애플리케이션들의 표준화 feat. eg-BIM의 시도.
- M×N 문제를 M+N 문제로 해결하는 표준화 접근
- 호스트(LLM)-클라이언트-서버 아키텍처 구조
2-3-2. MCP 구성 요소
- Tools: 모델이 제어하는 함수 호출 기능
- Resources: 애플리케이션이 제어하는 데이터 소스
- Prompts: 사용자가 제어
2-4. AI Agent (20분)
2-4-1. AI Agent의 개념과 특징
- 특정 목표 달성을 위한 자율적 AI 시스템
- 환경 인식, 의사결정, 행동 실행의 순환 구조
- 단순 반사형에서 목표 기반, 유틸리티 기반 에이전트
2-4-2. AI Agent 활용 사례
- 대 Agent 시대.. but 명확한 성공사례가 있는가?
- Multi-Agent 패러다임
3부: 업무 활용법 (90분)
3-1. 유용한 도구들(30분)
- 3대장 + alpha 특징
- Google, OpenAI, Anthropic 중심으로
- 사내에 설치된 LLM - 자유롭게 쓰도록 오픈은 어렵지만...
- 주요 개념
- Token
- Temperature / Top P
- Reasoning (Thinking Model) - budget
- Tools - Structured output / Code Execution / Grounding
- 사용 팁.
- 프롬프팅
- 왜 다시 시키는지 알려주기
- 원하는 형태의 샘플
- 차이점 설명
- 명확한 제약사항
- 프롬프팅
3-2. 자료 조사, 정리 (20분)
3-2-1. 웹의 자료로 만들어진 물건. 잘 찾는다.
- 검색에 최대한 활용하자.
- perplexity, Deep (Re)search류
- 내부의 Agentic 동작
3-2-2. MarkDown으로 정리시키자
- (사람이 보기에) 깔끔한 정리가 전혀 중요하지 않다.
- 최소한의 서식으로 구조화
- 직접 만들지 말고 검토를 하자
3-2-3. 모르는 것이 무엇인지 확인해보자
- 나한테 설명해줘 vs 내가 설명한 게 맞아?
- *** 하려는데 ###이라는 키워드로 찾아봤어.
3-3. 개발 활용 (20분)
3-3-1. 계획
- PRD 작성시키기
- 제약사항 MD로 남기기
3-3-2. (Vibe) Coding
- 계획한 문서를 제약사항으로 시작
- 검증도하고 테스트도 하고
- 너무 믿지는 말자
3-4. 사내 적용 사례 소개 (5분)
3-5. 너무 빨리 변해요 (15분)
3-5-1. 현실감이 사라지게 하는 뉴스
- Prompt 엔지니어링..?
- 모델이 좋아지면서 자연스럽게 풀리는 - 혹은 풀릴 - 문제들
- 조바심 가질 필요는 없어요.
3-5-2. 느슨한 원칙
- 과학에 '절대'라는 것은 없다.
- 사람이 실수할 확률보다 낮아지더라도 0은 아니다
- 한가지 어려운 일을 할만한 여러 일로 쪼개자
- 무조건 처음부터 다시 시작이 아니라 중간에 시작할 수 있게 하자
- Context Dump의 중요