Это — интерактивная книжка по тематическому моделированию с использованием библиотеки BigARTM.
Концепции книжки:
Демонстрация функциональности BigARTM на примере корпусов из набора UCI Bag-of-Words.
Эксперименты с многомодальным тематическим моделированием текстов Википедии на разных языках.
Анализ тематической структуры коллективного блога Habrahabr.ru.
Тематическое моделирование плейлистов пользователей интернет-радио Last.fm для автоматического выявления жанров, построения списков похожих артистов и персональных рекомендаций.
Построение классификатора юридических текстов из корпуса EUR-Lex с большим числом несбалансированных, взаимозависимых, пересекающихся классов. Тематическая модель, обученная с использованием регуляризатора специального вида позволяет строить достаточно точный классификатор при том что обучающая выборка достаточно мала для такого количества тем.