В данном проекте могут быть использованы персональные данные, собранные из разных источников (социальные сети, психологические опросники, данные компаний о своих сотрудниках, государственные реестры и т. д.). В качестве примеры мы рассмотрим подготовку данных, собранных из профилей пользователей социальной сети ВКонтакте с помощью открытого API.
Все данные были разделены на три модуля, каждый из которых описывает какое-то личностное представление человека. Так как байесовская сеть работает с дискретными величинами, все непрерывные величины необходимо дискретизировать.
Социодемографические данные
- Возраст
Дискретизирован на 12 интервалов с шагом в 5 лет
- Пол
1 - мужчина, 2 - женщина
- Код города
1 - Москва, 2 - Санкт-Петербург, 3 - остальные города
- Уровень образование
0 - школьник/абитуриент, 1 - бакалавр, 2 - магистр, 3 - специалист, 4 - научная деятельность
- Семейный статус
0 - не указан, 1 - не женат/не замужем, 2 - имеет друга/подругу, 3 - помолвлен(а), 4 - женат/замужем
- Количество родственников
Дискретизировано на 8 интервалов с шагом 3
Информация об интересах пользователя
На основе групп, на которые подписаны пользователи, было выявлено пять самых часто встречающихся интересов. Для каждого пользователя оценивалась доля его заинтересованности в теме, которая зависела от количества его подписок, соответствующих этой теме.
- Тема "Любовь, отношения, материнство"
- Тема "Спорт, фитнес"
- Тема "Деньги, поиск работы"
- Тема "История, политика"
- Тема "Новости"
Все значения были дискретизированы на 11 интервалов с шагом 10%.
Метрики активности человека в социальной сети
- Количество друзей
- Количество фолловеров
- Среднее количество лайков за один пост
- Общее количество постов
- Среднее количество просмотров одного поста
- Доля репостов
Все величины были дискретизированы на 6 - 10 интервалов в зависимости от исходного распределения характеристики.