바야흐로 추천 서비스의 시대다. 내가 원하는 컨텐츠를 직접 검색하지 않아도 유튜브에는 추천 동영상이, 쇼핑몰 사이트에는 추천 상품이 끊임없이 펼쳐진다. 나도 잘 모르던 내 취향까지 더 자세히 알고 있는 듯한 알고리즘. 추천 컨텐츠는 어떤 기준으로 결정되는 걸까? 유튜브 앱을 켜고, 정신 차리면 나도 모르게 3시간이나 지난 것을 누구나 겪어본 적이 있을 것이다. 그저 우리가 게으르기 때문에 이러한 현상이 생기는 것일까? 유튜브는 어떻게 사용자가 장시간 정신을 차리지 못하게 만드는 것일까? 그 비밀은 바로 ‘알고리즘’에 숨겨져 있다.
알고리즘의 사전적 정의는 어떤 문제의 해결을 위해 입력된 자료를 토대로 하여 원하는 출력을 유도하여 내는 규칙의 집합이다. 우리가 흔하게 접하는 알고리즘은 추천 알고리즘이다. 유튜브뿐만 아니라 넷플릭스, 왓챠 등의 플랫폼에서도 추천 알고리즘을 사용한다. 추천 시스템에 적용되는 알고리즘은 학습 기반 데이터에 따라 ‘컨텐츠 기반 필터링’과 ‘협업 필터링’, ‘하이브리드 추천 시스템’으로 나눌 수 있다. 지금부터 하나씩 살펴보도록 하자.
‘컨텐츠 기반 필터링’. 우리가 흔히 떠올릴 수 있는 추천 시스템이다. 예를 들어, 사용자가 영화를 보았다면 이에 따른 사용자의 리뷰, 평점, 감독, 출연 배우 등 해당 영화에 대한 설명을 바탕으로 유사한 영화를 추천한다. 즉, 컨텐츠 기반 필터링은 추천의 기준이 컨텐츠이다. 아이템에 대한 프로필 데이터를 기반으로 과거에 사용자가 선호했던 아이템을 파악한 후, 이를 토대로 비슷한 유형의 아이템을 추천하는 것이다. 다만, 이때 추천하는 아이템은 사용자가 과거에 경험하지 않았던 것이어야 한다. 두 번째 ‘협업 필터링’은 컨텐츠 기반 필터링과 다르게 추천의 기준이 컨텐츠가 아닌 사용자이다. 협업 필터링은 특정 상품에 대한 선호도가 유사한 고객들은 다른 상품에 대해서도 선호도가 비슷할 것이라는 가정하에 사용자의 나이, 성별, 성향 등을 분석하여 유사한 선호와 취향을 가질 것으로 추정되는 이용자들을 사용자집단으로 설정하여 아이템을 추천하는 방식이다. 예를 들어 영화 <겨울왕국 1>에 대한 평가가 유사한 두 사용자에게, 어느 한쪽이 아직 시청하지 않았지만 다른 사용자가 좋은 평가를 내린 영화 <겨울왕국 2>를 추천하는 식이다.
그렇다면 이러한 두 가지 추천 시스템은 각각 어떤 장단점을 지니고 있을까? 먼저 '컨텐츠 기반 필터링'부터 살펴보자. '컨텐츠 기반 필터링'은 추천을 제공받는 사용자의 컨텐츠 이용 내역만 있으면 되기에 다른 사용자들의 데이터가 없어도 추천이 가능하고, 개인의 독특한 취향을 고려한 추천 또한 가능하다. 아이템의 설명만 있다면 다양한 아이템이 후보군이 될 수 있어, 새로 추가된 아이템, 평점이 없는 유명하지 않은 아이템도 추천이 가능하며, 또한 아이템의 설명을 이용해 아이템 간의 유사성을 계산하므로 추천을 하는 근거를 설명할 수도 있다. 다만, 특징을 분석하기 어려운 데이터들이 존재하고, 처음 유입된 사용자에 대해서는 시스템이 아직 충분한 정보를 모으지 못했기에 추천이 어렵다. 무엇보다 상품의 특성만을 이용하는 특징 때문에 과거에 긍정적인 평가를 한 상품과 비슷한 상품을 추천하므로 특정 상품군이나 카테고리에 치우친 추천이 반복되는 '과도한 특수화'의 문제가 생긴다. 반면에 '협업 필터링'은 이러한 '과도한 특수화'의 문제가 적어 좀 더 폭넓은 상품을 추천할 수 있고, 초기 사용자라도 나이, 성별과 같은 정보가 이미 존재하기에 추천 할 수 있는 상품의 폭이 좁고, 유입된 지 얼마 되지 않은 사용자에 대한 추천 시스템의 정확도가 떨어지는 '컨텐츠 기반 필터링'의 주요 문제점을 해결할 수 있다. 하지만, '협업 필터링'도 단점은 있다. 바로 '콜드 스타트'와 '롱테일' 문제이다. '협업 필터링'을 사용하기 위해서는 기존 데이터를 활용해야 한다. 그러나 '협업 필터링'은 신규 사용자의 행동이 기록되지 않거나 신규 상품이 출시되더라도 이를 추천할 수 있는 정보가 충분히 수집되지 않으면 사용자에게 추천을 할 수가 없다. 이를 '콜드 스타트'라고 부른다. 그렇다면 '롱테일'은 무엇인가. '롱테일'은 간단히 말하자면 사용자들이 소수의 인기 있는 항목에만 관심을 보여 관심이 저조한 아이템에 대한 정보는 부족해져 추천되지 못하는 것을 의미한다. 이러한 '콜드 스타트'와 '롱테일'이 지속되면 '비대칭적 쏠림 현상'을 일으킬 수 있기에 문제가 되는 것이다.
그런데 이러한 '컨텐츠 기반 필터링'과 '협업 필터링'은 독특한 성질을 가지고 있다. 바로 두 필터링의 장단점이 반대의 성향을 나타내고 있다는 것이다. 그렇다면, 컨텐츠 기반 필터링과 협업 필터링을 결합하여 만든 추천 시스템은 어떨까? 지금부터 ‘하이브리드 추천 시스템’에 대해 살펴보자. ‘하이브리드 추천 시스템’은 '컨텐츠 기반 추천 시스템'과 '협업 필터링'을 결합한 모델을 뜻한다. 즉, 앞선 추천 시스템 종류의 단점을 보완하기 위해 2개 이상의 다양한 종류의 추천 시스템 알고리즘을 조합하는 방법이 '하이브리드 추천 시스템'인 것이다. '하이브리드 추천 시스템'의 목적은 다양한 알고리즘들의 단점은 보완하고 장점을 결합하여 더 좋은 알고리즘을 만드는 것이다. 그중 하나로 '컨텐츠 기반 필터링' 같은 경우는 신규 사용자에게 추천을 잘해주지 못하는 단점이 있었지만, 추천 결과를 '협업 기반 필터링' 추천 알고리즘과 결합하여 추천 효과를 더 높인 것이 하나의 예이다.
이렇듯 다양한 추천 시스템이 발전을 이뤄나가고 있으며, 앞으로의 추천 시스템은 개인화에 기여하는 데 큰 역할을 할 것이다. 그러나 여전히 문제점도 보완해야 할 점도 많다. 우리는 여전히 여러 플랫폼을 이용하며 알고리즘 때문에 편리함과 불편함, 그리고 한계를 모두 느낀다. 다만 미래에는 인공지능이 발전하여 사람의 ‘센스’까지 갖출 날이 오기를 고대해 본다.
<참고 자료>
- 한국콘텐츠진흥원
- TensorFlow