Skip to content

GitLab

  • Menu
Projects Groups Snippets
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
  • Sign in / Register
  • F FEDOT
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 87
    • Issues 87
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 1
    • Merge requests 1
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Monitor
    • Monitor
    • Incidents
  • Packages & Registries
    • Packages & Registries
    • Package Registry
    • Container Registry
    • Infrastructure Registry
  • Analytics
    • Analytics
    • Value stream
    • CI/CD
    • Repository
  • Wiki
    • Wiki
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • ITMO-NSS-team
  • FEDOT
  • Merge requests
  • !134

Merged
Created Jul 18, 2020 by Rosneft rosneft@rosneft_userDeveloper

Refactored preprocessing and PCA model

  • Overview 31
  • Commits 5
  • Changes 21

Накидал небольшие изменения по преобразованию features.

  1. Сократил число дублирующегося кода в nodes. Кмк стало компактнее и удобнее, вроде ничего в процессе не сломалось. Порядок блоков остался прежний:

image

Transformer осуществляет преобразование форматов данных, preprocess - изменяет их "масштаб" через скейлинг/нормализацию и т.п.

  1. Сделал возможность задавать тип препроцессинга в ноде "снаружи" - через поле manual_preprocessing_func. Как минимум, пригодится для генерации бенчмарков, там с этим были проблемы.

  2. Добавил реализацию модели-PCA, которая снижает размерность данных. Обильно не тестировал, но на примере в test_classifications.py внедрение PCA в цепочку даёт повышение качества. Предлагаю пока использовать эту реализацию (добавив ещё несколько подобных моделей) для экспериментального определения необходимости такого рода подходов (снижения размерности и т.д.)

Алсо, посмотрел как это сделано в TPOT-е: https://github.com/EpistasisLab/tpot/blob/master/tpot/builtins/feature_transformers.py Там для непрерывных величин возможно PCA преобразование, для категориальных - onehot. Других опций вроде не вижу, мб в других файлах что-то есть.

Assignee
Assign to
Reviewer
Request review from
Time tracking
Source branch: new-preprocessing-with-pca