본문 바로가기
데이터 AI

Vector Database

by lemonpie611 2025. 3. 26.

1. Vector Database란?

Vector Database는 말 그대로 데이터를 벡터 형태로 저장하는 데이터베이스이다.

여기서 말하는 벡터는 고차원 벡터 공간에서 데이터를 표현하는 방법으로, 특히 기계학습에서 자주 사용되는 임베딩 알고리즘을 통해 생성된 데이터들을 의미한다.

 

2. 데이터를 벡터 형태로 저장하는 이유?

1) 비정형 데이터의 효율적인 저장 및 관리

많은 양의 비정형 데이터를 임베딩한 값들은 기존의 관계형 데이터베이스 형태로 적재하기 어렵다. 벡터 데이터베이스는 데이터 관리, 메타 데이터 저장 및 필터링을 용이하게 하며 높은 확장성, 백업, 수집, 실시간 업데이트 등 다양한 방면으로 활용이 가능하다.

2) 유사성 검색 및 LLM 활

데이터를 벡터로 저장하면 유사성 검색에 용이하다. 예를 들어, "애플"이라는 단어를 벡터로 변환했을 때, 이 벡터는 "사과", "아이폰", "구매"와 유사한 벡터들을 찾는 데 사용된다. LLM은 벡터 공간에서 가장 비슷한 벡터를 빠르게 찾아낼 수 있어, 추천 시스템이나 질문 응답 시스템과 같은 다양한 응용 프로그램에서 유용하게 활용된다.

LLM 또한 마찬가지로 단어, 문장, 문맥을 벡터 형태로 변환하여, 그들 간의 유사성을 계산하거나, 의미적인 관계를 파악한다. 텍스트를 벡터로 변환한 후, LLM은 이를 병렬 처리하여 수많은 텍스트 데이터를 일괄적으로 분석하거나 생성할 수 있다.

 

3. 벡터 데이터베이스 특징 비교

Chroma DB Yes LLM 임베딩 색상 기반 인덱싱, 색상 유사성 검색 최적화
Weaviate Yes 모든 데이터 & 임베딩 다채로운 머신러닝 모델과 호환
Qdrant Yes 위치 기반 데이터 효율적인 유사성 검색 및 위치 기반 쿼리 관리
Milvus Yes 고성능 검색 및 클러스터링 고성능 데이터베이스, 대규모 데이터셋에 적합
Faiss Yes 범용 검색 라이브러리 효율성, 딥러닝 프레임워크와 통합