Introducción
Herramientas
Datos
Predicción social
Agregando PLN
Conclusiones
¿ Dado un usuario, cuanto puedo saber de sus preferencias sabiendo las de su entorno ?
Contenido compartido por $u$ o sus seguidos
Excluímos contenido generado por $u$
$ T_u := (\bigcup_{x \in \{ u \} \cup \texttt{seguidos}(u)} \texttt{timeline}(x)) - \{ t \in T | \texttt{autor}(t) = u \} $
máximo $10000$ ( submuestra de negativos si es necesario )
{
"C": [ 0.01, 0.1, 1 ],
"class_weight": [ "balanced", None ],
"gamma": [ 0.1, 1, 10 ],
"kernel": [ "rbf", "poly" ]
}
* $C$: controla balance entre margen y errores
* $class\_weight$: ¿dar más importancia a clase minoritaria?
* $gamma$: forma de la frontera de decisión
$F1 < 0,75$ en $M^{aj}_u$ ( $23$ usuarios )
$10$ usuarios más (al azar)
$T$ retokenizado con frases
término = palabra o frase
significativo ( al menos $3$ veces ).
informativo ( en menos del $30\%$ de los tweets ).
Diccionario $D$ de $26201$ términos.
Descubre temas subyacentes en textos
Reducción de dimensionalidad ( espacio de términos a espacio de temas )
Probamos modelos de $10$ y $20$ temas
Impacta a más usuarios, pero mejora menos