Notebook
Что можно сделать 1) Например в признаке education можно свести под одну категорию значения "Preschool", ..., "12th" и назвать это "недосреднее образование" 2) Martial status: тоже можно было бы сделать объединение - Married *, Divorced+Separated 3) Occupation: Armed-Forces+Protective-serv 4) Relationship: В целом странный признак. Может быть стоит его удалить 5) native-country: Очень много категорий. Можно было бы объединить страны по континентам/регионам 6) Workclass: категорию withoutpay можно убрать
Здесь можно было бы посчитать какой-нить статистический критерий, типа хи-квадрат, чтобы проверить гипотезу о зависимости между категориями
Удалим все лишнее, сделаем замены и преобразуем