검색증강생성(RAG: Retrieval-Augmented Generation)

검색증강생성(RAG: Retrieval‎-Augmented Generation)  검색증강생성(RAG)은 거대언어모델(LLM)의 환각현상과 최신 정보 부족 문제를 보완하기 위해 고안된 핵심 기술이다. LLM이 학습 단계에서 습득한 내재 지식만으로 답변을 생성하는 대신, 외부의 신뢰할 수 있는 데이터베이스에서 관련 정보를 검색한 뒤 이를 기반으로 응답을 생성함으로써 사실성과 신뢰성을 높인다(한국정보통신기술협회 2025, p.11).  RAG의 작동 과정은 세 단계로 정리할 수 있다. 먼저 색인(indexing) 단계에서 외부 문서의 큰 텍스트를 더 작은 단위인 청크(chunk)단위로 분절한 뒤, 기계학습 모델이 이해하고 처리할 수 있는 간단한 형태의 임베딩 벡터로 변환하고 벡터 데이터베이스에 저장한다. 다음으로 검색(retrieval‎) 단계에서는 사용자의 질문을 임베딩 벡터로 변환하여 의미적으로 가장 유사한 청크들을 탐색한다. 마지막으로 생성(generation) 단계에서는 검색된 정보와 질문을 프롬프트로 결합하여 LLM에 입력함으로써 단순 추론이 아닌 참조 정보에 기반한 응답을 생성하도록 유도한다(임준호 2025, p.25-26).  최근에는 보안 분야에서 취약점 데이터베이스를 활용한 안전한 코드 생성 기법(김명혁, 이상진 2025, p.541-542), 의약품 분야의 맞춤형 의약품 추천 챗봇(이원석 외 2025), 부동산 뉴스 분석을 통한 아파트 매매가격 예측 모델(김진우, 은준엽 2025) 등 다양한 분야에서 RAG 활용 연구가 진행되고 있다. 이처럼 RAG는 전문성과 최신성이 요구되는 영역에서 LLM의 한계를 보완하는 핵심 기술로 자리매김하며, 실제 서비스와 연구 현장에서 빠르게 확산되고 있다. 이지원/국토연구원 연구원 참고문헌 김명혁, 이상진. 2025. 검색증강생성 기반 거대 언어 모델의 시큐어 코드 생성 기법. 정보보호학회논문지 35권, 3호: 535-544. 김진우, 은준엽. 2025. RAG-LLM 기반 부동산 뉴스 분석을 통한 아파트 매매가격지수 예측 모델 개발. 부동산분석 11권, 2호: 105-130. 이원석, 김동영, 김민규, 김재민, 류지호, 인세훈, 이한용. 2025. 검색 증강 생성(RAG) 기술을 활용한 사용자 맞춤 일반의약품 정보 제공 챗봇 개발. Proceedings of KIIT Conference, 제주. 임준호. 2025. 거대언어모델(LLM) 응용 기술 최근 동향. 한국통신학회지 (정보와통신) 42권, 4호: 24-31. 한국정보통신기술협회. 2025. 최신 ICT 시사용어 2025.