부스트캠프 AI 6주차(Day-36) 회고록

October 24, 2022 5 minute read

Day 36

참고
Label Encoding: Label Encoding은 카테고리 피처를 코드형 숫자 값으로 변환하는 것입니다. 
추천시스템에서 Label Encoding은 단어 간의 거리가 가까워져 아이템의 특성이 왜곡 될 수 있어 사용하지 않는다.

Collaborative Filtering
- 나랑 비슷한 성향의 친구들이 읽은 책을 찾아본다
- “나와 비슷한 취향의 사람들이 좋아한 것은 나도 좋아할 가능성이 높다”
- 유저와 아이템의 “상호작용 정보”를 바탕으로 추천
User Based Collaborative Filtering
Item Based Collaborative Filtering
Memory Based Collaborative Filtering의 장점 및 한계점
- 장점
  - 최적화나 훈련 과정이 필요 없다.
  - 접근 방식이 쉽다.
  - Item based Collaborative Filtering: 시간에 따라 유사도 변화가 적다.
- 한계점
  - 유저와 아이템의 상호작용이 적은 경우 각 유저와 아이템의 유사도가 왜곡되어 성는이 떨어진다.
  - 희소한(sparse) 데이터의 경우 성능 저하된다.
  - User based Collaborative Filtering: 새로운 사용자의 경우 정보가 없어서 추천이 어려움(Cold-Start의 문제)
  - Item based Collaborative Filtering: 사용자가 아이템에 feedback한 정보가 많아야 한다.

배경
- Memory Based Collaborative Filtering의 문제점
  - 데이터 희소성(Sparsity)
  - 확장성(Scalability)
  - 사용자, 아이템 개수가 늘어나면 계산량이 기하급수적으로 늘어남
Model Based Collaborative Filtering 장점
- 항목간 유사성 단순 비교가 아닌 데이터 패턴을 학습하여 추천 가능하다.
- 사용자-아이템 관계의 잠재적 특성 및 패턴을 찾을 수 있다.
- 학습 이후 서빙 속도가 빠름
Clustering
- 데이터를 군집화 하여 군집내의 다른 사용자가 선호하는 아이템을 추천한다.
- 군집화 이후 Collaborative Filtering 사용을 통한 예측 정확도가 향상된다.
- 군집 데이터를 추룰하여 아이템 선호드를 계산하고, 사전확률로 활용하여 BPR을 적용한다.
- K-Means Clustering
  - 가장 가까운 중심점을 갖는 군집에 각 항목을 할당하는 과정을 반복하여 k개의 군집으로 항목들을 나누는 알고리즘
    1. 랜덤하게 초기 중심점을 배치한다.
    2. 각 데이터를 가장 가까운 중심점으로 할당한다.
    3. 모인 데이터에서 새로운 중심점 업데이트 한다.
    4. 더 이상 중심점이 업데이트 되지 않을 때까지 2와3을 반복한다.
- 군집화의 한계점
  - 데이터를 분할함에 따라 분할 된 데이터의 희소성 문제가 발생해 성능이 저하된다.
  - 군집개수등 파라미터를 직접 설정 해야한다.