|
사용 가능한 다양한 형식의 데이터:
📘 Text: 문서, 블로그 글, 메모, 논문 등
🖼️ Image: 그림, 사진, 스캔 자료 등
🔊 Audio: 음성 녹음, 인터뷰, 회의록 등
🎞️ Video: 영상 강의, 회의 영상 등
👉 이 모든 데이터들은 사람은 이해할 수 있지만 기계(LLM, AI)는 그대로는 사용할 수 없습니다. 따라서 수치화 과정이 필요합니다.
🔹 2. Embedding Service (임베딩 변환)
각 데이터를 **벡터(Vector)**로 변환하는 과정입니다.
예를 들어 텍스트 "ChatGPT는 무엇인가요?"를 [0.12, -0.45, ..., 0.98]처럼 고차원 숫자 벡터로 바꿉니다.
사용하는 예시:
텍스트: sentence-transformers, OpenAI text-embedding-3-small, nomic-embed-text
이미지: CLIP, BLIP
음성: Whisper, Wav2Vec
비디오: VideoCLIP, SlowFast 등
🧠 이 벡터는 의미를 보존한 상태에서 수치화된 데이터이므로, 유사도 검색 등에 활용됩니다.
🔹 3. Vector Data (벡터화된 데이터)
이 단계에서는 데이터가 완전히 수치화(임베딩)된 상태입니다.
이 벡터는 고차원 공간에서 의미가 유사한 다른 벡터와 가깝게 위치하게 됩니다.
예: "강아지"와 "개의 사진"은 벡터 공간상에서 가깝습니다.
🔹 4. Vector Database (벡터 DB 저장소)
임베딩된 벡터들을 저장하고, 빠르게 검색할 수 있는 데이터베이스입니다.
주로 **유사도 검색(KNN, cosine similarity 등)**을 위해 사용됩니다.
예시:
FAISS (Meta)
Chroma
Weaviate
Pinecone
Milvus
|