항목 | LLM (Large Language Model) | sLLM (Small Large Language Model) | sLM (Small Language Model) |
🔹 정의 | 수십~수천억 파라미터의 범용 대규모 언어 모델 | LLM을 경량화한 중소형 모델 (1B~7B) | 특정 작업에 특화된 소형 모델 (수백만~수억 파라미터) |
🔸 모델 예시 | GPT-4, PaLM 2, Claude 3, LLaMA 65B | TinyLLaMA, Mistral 7B, Phi-2, GPT-J | DistilBERT, MobileBERT, TinyBERT |
🧠 성능 | 가장 뛰어난 생성·추론 능력 | 비교적 높은 수준의 자연어 처리 능력 | 제한된 영역에서 빠르고 정확 |
🟢 장점 | - 범용성 최고 - 풍부한 지식 - 창의적인 작업 가능 | - 온디바이스 추론 가능 - 빠른 속도 - 파인튜닝 쉬움 | - 경량화 최고 - 빠른 실행 속도 - 저전력 소자에 적합 |
🔴 단점 | - 실행 비용 매우 큼 - 클라우드 필요 - 느린 응답 | - 성능은 LLM보다 낮음 - 맥락 제한 있음 | - 복잡한 질문/추론 불가능 - 일반화 능력 낮음 |
🧩 적용 분야 | - 챗봇 - 글쓰기 보조 - 코드 생성 - 검색 엔진 | - 모바일 챗봇 - 로봇 제어 - 온디바이스 AI | - 감정 분석 - 명령어 분류 - IoT 제어, TinyML |
⚙️ 사용 기술 | - Transformer - Attention Mechanism - 수십~수백억 파라미터 | - Quantization - Distillation - llama.cpp, GGUF, QLoRA | - Distillation - Pruning - TensorFlow Lite Micro, TinyML |
🖥️ 실행 환경 | 클라우드, 고성능 GPU (A100/H100) | 라즈베리파이, 모바일, Edge GPU | Arduino, ESP32, MCU 등 초경량 디바이스 |