Notebook

Данные¶

In [1]:

import csv
from collections import defaultdict
import random
from metrics import apk
random.seed(42)

In [2]:

#Словари для основной выборки
user_to_items = defaultdict(set)
item_to_users = defaultdict(set)

#Словари для тестовой выборки
test_user_to_items = defaultdict(set)
test_item_to_users = defaultdict(set)


with open("data/train_likes.csv") as datafile:
    for like in csv.DictReader(datafile):
        # Кидаем монетку. В зависимости от результата кладём в обучение или тест
        if random.random() < 0.5:
            user_to_items[like['user_id']].add(like['item_id'])
            item_to_users[like['item_id']].add(like['user_id'])
        else:
            test_user_to_items[like['user_id']].add(like['item_id'])
            test_item_to_users[like['item_id']].add(like['user_id'])

In [3]:

all_items = set(item_to_users.keys()) | set(test_item_to_users.keys())

Фильтрация пользователей¶

Значительная часть пользователей имеет всего 1-2 лайка. При всём желании, рекоммендовать им что-либо осмысленное при помощи рассматриваемого здесь метода мы вряд ли сможем. Для простоты вычислений, удалим их из выборки.
Важно понимать, что качество на оставшихся пользователях скорее всего будет выше, чем на первоначальной выборке.

In [4]:

min_items_per_user = 2
from copy import copy
for user in copy(test_user_to_items).keys():
    
    n_items_per_user = len(user_to_items[user]) + len(test_user_to_items[user])
    
    if n_items_per_user <= min_items_per_user:
        del user_to_items[user]
        del test_user_to_items[user]

Рекоммендующая функция¶

Позволим себе немного вольности: наша функция будет возвращать не вероятности, а список фильмов в порядке убывания "рекомендованности".

Рекоммендованность фильма item пользователю user посчитаем так:
- Для каждого фильма, полайканного пользователем user, найдём других людей, которым понравился фильм.
- Сложим всех таких "друзей по лайкам" вместе и назовём соседями (neighborhood) пользователя.
- Для фильма item узнаем его аудиторию - множество пользователей, которые его лайкнули
- Пригодность фильма пользователю - то, насколько "друзьям по лайкам" пользователя нравится этот фильм.

Для примера, будем использовать косинусную меру расстояния

$ cos(u_{film}, u_{neighborhood}) = $ =$ u_{film} \cdot u_{neighborhood} \over |u_{film}| |u_{neighborhood}| $

$u_{neighborhood}$ зависит только от пользователя, но не от фильма, поэтому при сравнении фильмов по пригодности для одного пользователя, его можно исключить из формулы для простоты вычислений.

$ similarity(u_{film}, u_{neighborhood}) = $ $ u_{film} \cdot u_{neighborhood} \over |u_{film}| $

Распишем формулу подробно:

$ similarity(u_{film}, u_{neighborhood}) = $ $ \sum _{u_i} [u_i \in u_{film}] \cdot [u_i \in u_{neighborhood}] \over |u_{film}| $

u_i - очередной пользователь (в цикле по всем пользователям)

Выражение $[u_i \in u_neighborhood]$ здесь означает "сколько раз очередной пользователь входит в множество друзей по лайкам"

In [5]:

from math import sqrt
from collections import Counter

def recommend(user, n_best = 10):
    """Функция, которая возвращает список рекоммендованных фильмов
    user - id пользователя
    n_best - сколько максимум фильмов можно рекоммендовать
    remove_already_liked - если True, """
    user_items = user_to_items[user]
    
    #соседи пользователя {User_id -> сколько раз сосед}
    #Что такое counter - https://pymotw.com/2/collections/counter.html
    neighborhood = Counter()
    for item in user_items:
        neighborhood.update(item_to_users[item])
    
    #словарь {фильм -> пригодность фильма пользователю}
    item_similarities = {}
    
    for item in all_items:
        #пропустим те фильмы, которые пользователь уже лайкал, если нас об этом попросили
        if item in user_items: continue
        
        #пользователи, лайкавшие фильм item
        item_users = item_to_users[item]
        
        #Если фильм никто не лайкал, пропускаем
        if len(item_users) == 0: continue
        
        #число соседей user (кому мы рекоммендуем), лайкнувших фильм item
        n_common_users = sum(neighborhood[user] for user in item_users)
        
        #похожесть на интересы пользователя = число соседей, кому он понравился, делённое на общее число 
        similarity = float(n_common_users) / sqrt(len(item_users))
        
        item_similarities[item] = similarity
    
    #Отсортируем все фильмы по убыванию их похожести на интересы пользователя
    items_sorted = sorted(all_items, key = lambda x: item_similarities.get(x, 0),reverse = True)
    
    #вернём n_best наиболее пригодных
    return items_sorted[:n_best]

In [6]:

# Порекоммендуем топ-5 фильмов какому-то юзверю
recommend('d8c2794b01531ca807bc2b28d171f22d', n_best=5)

Out[6]:

['44327280355abfc1c58fa9ad8c41a2cc',
 'e6e53f41066b37fb5b80bd118dc800be',
 '1e540fdc6ef7c62c3d3ef6d78a6abcab',
 '13ffc4b8348356546cc44358b6c999c1',
 'f049e6c94383af7a3c480a7469a5efd4']

In [7]:

# Ему же топ-3 фильма. Совпадает с первыми 3-мя из топ-5
recommend('d8c2794b01531ca807bc2b28d171f22d', n_best=3)

Out[7]:

['44327280355abfc1c58fa9ad8c41a2cc',
 'e6e53f41066b37fb5b80bd118dc800be',
 '1e540fdc6ef7c62c3d3ef6d78a6abcab']

Оценка качества - map@k¶

In [9]:

#сколько рекоммендаций рассматриваем
K = 10

#по какой части тестовых пользователей считаем map@k
max_n_users = len(test_user_to_items)
#warnung, для max_n_users = len(test_user_to_items) цикл может считаться несколько минут
#для отладки рекоммендуется использовать меньшее число


APatK_per_user = []
#для всех юзверей
for i, user in enumerate(test_user_to_items):
    
    #фильмы, которые пользователю на самом деле нравятся
    test_items = test_user_to_items[user]
    
    #Выдать топ-K рекоммендаций
    recommendation_list = recommend(user,n_best=K)
    
    #Посчитать ap@k
    user_APatK = apk(test_items, recommendation_list,k=K)
    
    #и сложить в коробку
    APatK_per_user.append(user_APatK)
    
    #Progress bar
    if i % 100 ==0:
        print(i,'/',max_n_users)
        
    if i > max_n_users:
        break
    
print('mAP@{} = {}'.format(K, sum(APatK_per_user)/len(APatK_per_user)))
    

0 / 6108
100 / 6108
200 / 6108
300 / 6108
400 / 6108
500 / 6108
600 / 6108
700 / 6108
800 / 6108
900 / 6108
1000 / 6108
1100 / 6108
1200 / 6108
1300 / 6108
1400 / 6108
1500 / 6108
1600 / 6108
1700 / 6108
1800 / 6108
1900 / 6108
2000 / 6108
2100 / 6108
2200 / 6108
2300 / 6108
2400 / 6108
2500 / 6108
2600 / 6108
2700 / 6108
2800 / 6108
2900 / 6108
3000 / 6108
3100 / 6108
3200 / 6108
3300 / 6108
3400 / 6108
3500 / 6108
3600 / 6108
3700 / 6108
3800 / 6108
3900 / 6108
4000 / 6108
4100 / 6108
4200 / 6108
4300 / 6108
4400 / 6108
4500 / 6108
4600 / 6108
4700 / 6108
4800 / 6108
4900 / 6108
5000 / 6108
5100 / 6108
5200 / 6108
5300 / 6108
5400 / 6108
5500 / 6108
5600 / 6108
5700 / 6108
5800 / 6108
5900 / 6108
6000 / 6108
6100 / 6108
AP@10 = 0.005945258691169598

Notes¶

Кроме качества рекоммендаций, map@k ещё зависит от доли тестовой выборки, фильтрации и от самого K. Сравнивать качество разных алгоритмов имеет смысл только при одинаковом K и тестовой выборке.
Давать полезные рекоммендации пользователям с малым числом лайков тоже можно: например, можно выдавать наиболее популярные в целом фильмы.
Разделение на обучение/тест честнее делать на по времени: первые 70% (например) лайков в обучение, остальные в тест. Это ближе к реальной жизни, когда вы сначала обучаете модель на логах, а потом применяете на новых сессиях пользователей.

In [ ]: