Skip to content

GitLab

  • Menu
Projects Groups Snippets
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
  • Sign in / Register
  • B BAMT
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 1
    • Issues 1
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Monitor
    • Monitor
    • Incidents
  • Packages & Registries
    • Packages & Registries
    • Package Registry
    • Container Registry
    • Infrastructure Registry
  • Analytics
    • Analytics
    • Value stream
    • CI/CD
    • Repository
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • ITMO-NSS-team
  • BAMT
  • Wiki
  • 4. Подготовка данных

Last edited by Irina Deeva Jun 09, 2020
Page history

4. Подготовка данных

В данном проекте могут быть использованы персональные данные, собранные из разных источников (социальные сети, психологические опросники, данные компаний о своих сотрудниках, государственные реестры и т. д.). В качестве примеры мы рассмотрим подготовку данных, собранных из профилей пользователей социальной сети ВКонтакте с помощью открытого API.

Все данные были разделены на три модуля, каждый из которых описывает какое-то личностное представление человека. Так как байесовская сеть работает с дискретными величинами, все непрерывные величины необходимо дискретизировать.

Социодемографические данные

  • Возраст
    Дискретизирован на 12 интервалов с шагом в 5 лет
  • Пол
    1 - мужчина, 2 - женщина
  • Код города
    1 - Москва, 2 - Санкт-Петербург, 3 - остальные города
  • Уровень образование
    0 - школьник/абитуриент, 1 - бакалавр, 2 - магистр, 3 - специалист, 4 - научная деятельность
  • Семейный статус
    0 - не указан, 1 - не женат/не замужем, 2 - имеет друга/подругу, 3 - помолвлен(а), 4 - женат/замужем
  • Количество родственников
    Дискретизировано на 8 интервалов с шагом 3

Информация об интересах пользователя

На основе групп, на которые подписаны пользователи, было выявлено пять самых часто встречающихся интересов. Для каждого пользователя оценивалась доля его заинтересованности в теме, которая зависела от количества его подписок, соответствующих этой теме.

  • Тема "Любовь, отношения, материнство"
  • Тема "Спорт, фитнес"
  • Тема "Деньги, поиск работы"
  • Тема "История, политика"
  • Тема "Новости"
    Все значения были дискретизированы на 11 интервалов с шагом 10%.

Метрики активности человека в социальной сети

  • Количество друзей
  • Количество фолловеров
  • Среднее количество лайков за один пост
  • Общее количество постов
  • Среднее количество просмотров одного поста
  • Доля репостов
    Все величины были дискретизированы на 6 - 10 интервалов в зависимости от исходного распределения характеристики.
Clone repository
  • 1. Байесовская сеть
  • 2. Алгоритм идентификации байесовской сети
  • 3. Сэмплирование синтетических данных
  • 4. Подготовка данных
  • 5. Руководство пользователя
  • Home