Методологія CRISP-DM – класика, яка не застаріває
Міжгалузевий стандартний процес обміну даними (Cross-Industry Standard Process for Data Mining) представляє собою добре структурований підхід до проектів з аналізу даних.
Процедура CRISP-DM включає 6 кроків плюс дані, які пов’язані між собою ітеративним процесом.
Розуміння бізнесу – на цьому етапі визначте результати проекту, оцініть поточну ситуацію, складіть план проекту
Розуміння даних – опишіть і вивчіть дані, перевірте якість даних, бо часто з’ясовується, що дані неправильно або неповністю збережені в хмарі чи базі даних
Підготовка даних – виберіть дані, очистіть дані (замініть пропущені значення, видаліть нетипові спостереження тощо), об’єднайте декілька наборів даних та/або отримайте агреговані значення
Моделювання – оберіть техніку моделювання (регресія, нейронна мережа тощо), розділіть дані на набори даних для побудови моделей (набір train включає 75% даних для побудови моделей) і тестування (набір test включає 25% даних для вибору найкращої моделі або ансамблю моделей), побудуйте модель, оцініть ефективність моделі
Оцінювання – оцінка результатів (на нових даних протягом 2-3 місяців), перегляд та затвердження моделей
Деплоймент (розгортання) – результати моделей стають частиною щоденної ділової активності
Діаграма процесу підкреслює той факт, що ітерація – це радше правило, а не виняток. Іншими словами, один раз пройти процес, не вирішивши проблему, є нормою. Наприклад, на етапі моделювання може з’ясуватися, що бракує розуміння певного аспекту бізнесу, який доцільно обговорити з власником процесу або іншим ключовим стейкхолдером.
Багато експертів зі Штучного Інтелекту (ШІ) вважають, що стандарт CRISP-DM (винайдений наприкінці 1990-х років) застарілий в сучасному світі ШІ, наприклад послідовність кроків може бути іншою, або взагалі всі кроки можуть виконуватися майже одночасно. Але, схоже, що загально прийнятої альтернативи наразі немає.
На думку експерта Білла Ворхіеса, хоча наука даних і перейшла за межі прогнозного моделювання та рекомендацій, навіть сучасні нелінійні проекти все одно починаються з розуміння бізнесу, починаються з даних, які необхідно зібрати, дослідити та певним чином підготувати. Потім ці проекти застосовують набір алгоритмів науки даних до проблеми і потребують оцінки їх здатності до узагальнення в реальному світі. Тому на думку Білла Ворхіеса CRISP-DM надає чіткі вказівки навіть для найсучаснішої сьогоднішньої діяльності з інформатики.
Блог Максима Обрізана: https://obrizan.org/blog/
Коментарі
Невірно заповнені поля відзначені червоним.
Будь ласка, перевірте форму ще раз.
Ваш коментар відправлений і буде доступний на сайті після перевірки адміністратором.
Інші статті в категорії IT, програмування, розробка Project management, управління проектами Бізнес освіта, MBA