Home
BN-based synthetic data - это подход для генерации синтетических персональных данных на основе построения иерархической блочной структуры байесовской сети.
Моделирование различных аспектов человеческого поведения на уровне личности и общества является трудной задачей из-за значительного многомасштабного воздействия процессов, лежащих в основе человеческой натуры. Учет разнородной информации о человеке приводит к необходимости сбора данных из разных источников. Некоторые из них могут быть недоступны, доступность других отличается во времени или ограничена законами о конфиденциальности персональных данных. Поэтому, возвращаясь к задаче создания генеративной модели для производства синтетических данных, мы сталкиваемся с проблемой, касающейся необходимости изучения всей модели каждый раз, когда мы получаем новые данные. С ростом объема данных и новых источников данных легко увидеть, что обновление всей модели стало чрезмерно дорогим.
На рисунке вы можете увидеть пример многомасштабной модульной структуры модели человека. Примеры данных на каждом уровне написаны курсивом. Возможные источники данных показаны слева. Названия уровней показаны справа.
Чтобы избежать дополнительных затрат на переобучение байесовской сети, желательно иметь подход для учета новых данных для уже предварительно обученной сети. В то же время мы хотели бы улучшить интерпретируемость структуры сети. Эти факторы приводят нас к созданию байесовской сети с блочной или частичной структурой, где каждый блок может быть связан с масштабом (или уровнем) человеческой личности.
После получения новой порции данных во многих случаях нам понадобится обучить только одну или несколько частичных сетей, в то время как остальная часть сети уже обучена. Для этой цели мы предлагаем подход, который сочетает в себе преимущества явного структурного обучения и обучения скрытых переменных скрытых переменных.