Открыто

Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

Тема в разделе "Курсы по программированию", создана пользователем Топикстартер, 17 сен 2025 в 21:44.

Цена: 52600р.-92%
Взнос: 4129р.

Основной список: 15 участников

  1. 17 сен 2025 в 21:44
    #1
    Топикстартер
    Топикстартер ЧКЧлен клуба

    Складчина: Курс Data Science [Тариф Стандарт] [balun.courses] [Дмитрий Сафонов]

    2025-09-18_013643.png

    Курс по Data Science для middle: senior-навыки за 6 недель

    Подойдет для Data Scientists, Classic ML и NLP-инженеров уровня middle/middle+
    Нужны базовые знания основ машинного обучения, математики и программирования
    Будем писать на Python, но если ты программируешь на чем-то другом — это некритично. Вся практика будет применима на другие ЯП

    В курсе осваиваем навыки, которые мешают расти мидлам
    • Как обнаружить проблемы в грязных данных в самом начале работы и сделать модель, устойчивую к дрейфу
    • Как учесть все инфраструктурные ограничения и раскатать модель на прод с первого раза без финансовых потерь
    • Как правильно мониторить деградацию моделей в проде, делать их стабильными и автоматически переобучать
    • Как строить хорошие признаки по нестабильным временным рядам — активности пользователей, курсу валют и др.
    • Как расти в зарплате через связку продуктовых и бизнес-метрик: увеличивать выручку и средний чек, а не техническую точность рекомендаций
    • Как тестировать раскатанную ML через A/B-тесты, избегать ложных выводов и потерь у смежных бизнес-подразделений
    Программа
    6 недель точечно закрываем каждый блок-фактор
    Не просто теория, а выжимка всего опыта от TeamLead из Яндекса. Лучшие практики из BigTech, разбор реальных бизнес-кейсов и много кода, который ты напишешь самостоятельно
    • Вводная часть
    • Неделя 1. Feature Engineering, Bias и согласованность данных
    • Неделя 2. Модели: оптимизация и нестандартные сценарии использования ML
    • Неделя 3. Real-time ML, потоковая обработка, мониторинг и обслуживание
    • Неделя 4. Feature Store, MLOps, оптимизация ресурсов
    • Неделя 5. Связка продуктовых и бизнес-метрик
    • Неделя 6. Дипломный проект
    Вводная часть
    проблематика курса: основные проблемы с данными, инфраструктурные сложности, слабая связь модельных и бизнес метрик
    основные различия между датасетами обучения и работой
    про табличные и текстовые данные из курса, отражающие реальные бизнес-процессы из финансовой, рекламной и других digital-сфер
    тонкости применения популярных в BigTech моделей для задач классификации, регрессии, ранжирования и прогнозирования — Catboost, Tabnet, DSSM, Bert
    Практика:
    BigTech-кейс с изменением поведения модели в продакшне, которое не определить стандартными методами. Подробный разбор предпосылок и последствий. Разбор методов оценки стабильности факторов, которые помогают избежать проблемы в продакшне
    *на основе сервиса для настройки рекламы

    Неделя 1. Feature Engineering, Bias и согласованность данных
    На этой неделе учимся:
    видеть основные проблемы, которые встречаются в продакшн данных и бороться с ними
    генерить признаки по реальным данным, оценивать их полезность и стабильность
    спасать модели от переобучения, а бизнес — от финансовых потерь

    Урок № 1 — Feature Engineering для продакшена
    Теория:
    основные методы feature engineering
    Практика:
    генерация фичей в условиях нестабильных данных
    PSI, Jensen-Shannon Divergence
    дисперсия признаков
    различное поведение в зависимости от среза
    потеря информации при нормировке
    работа с категориальными переменными в продакшене
    обработка новых категорий
    хэширование
    Домашняя работа:
    генерация стабильных фичей из сырых данных. Отбор полезных, которые лучше всего объясняют таргет

    Урок № 2 — Смещения (Bias) и согласованность данных
    Теория:
    продвинутые методы детекции и коррекции bias
    Causal Inference для рекомендательных систем
    Fairness Metrics
    Reweighing, Sample Balancing, Fair Representation Learning
    Синхронизация данных из распределенных источников
    CDC
    event sourcing
    Практика:
    синхронизация данных из двух источников разного типа,
восстановление истории и замерка лага
    Домашняя работа:
    обнаружить и исправить временное смещение (temporal shift) в продакшн-данных

    Неделя 2. Модели: оптимизация и нестандартные сценарии использования ML
    На этой неделе учимся:
    изучаем best practices BigTech-компаний для решения задач с различными данными
    разбираем лучшие модели для табличных и текстовых данных, а также критерии их применения
    учимся контролировать инференс изученных моделей и четко понимать, для каких задач использовать Bert, DSSM, XGBoost

    Урок № 3 — База по моделям
    Теория:
    что и где используется в продакшн на примере кейсов из BigTech
    Catboost vs Tabnet
    NLP applications (Bert, DSSM)
    интерпретируемость моделей
    продвинутая борьба с переобучением
    Практика:
    настраиваем, обучаем, проверяем изученные модели на задаче с реальными данными

    Урок № 4 — Оптимизация ML-моделей для продакшена
    Теория:
    квантование, дистилляция и pruning моделей (практические примеры из NLP/CV)
    как выбирать между скоростью и точностью (cost vs quality)
    Практика:
    разбираем дистилляцию и pruning моделей на примере нейросетей для текстов
    Домашняя работа:
    уменьшить размер модели в 2 раза с минимальной потерей качества

    Урок № 5 — Нестандартные сценарии использования ML
    Теория:
    модели для данных с задержкой: прогнозирование с incomplete data, Semi-supervised learning, Proxy labeling, Feature Lagging
    ансамблирование в условиях ограниченных ресурсов
    Практика:
    адаптируем ML-решение задачи к данным с задержками, разбираем применимость в зависимости от характера задержек
    Домашняя работа:
    построить модель, работающую с частичными данными (имитация задержек)

    Неделя 3. Real-time ML, потоковая обработка, мониторинг и обслуживание
    На этой неделе учимся:
    посмотрим на жизненный цикл модели в продакшене и best practices в MLOps инструментах
    научимся чинить прод, проектировать архитектуру, взаимодействовать со смежными командами и писать свои процессы в рамках инфраструктуры BigTech

    Урок № 6 — Real-time ML и потоковая обработка
    Теория:
    архитектура streaming-пайплайнов: Kafka + Flink/Spark Streaming
    батчинг, кэширование, GPU-ускорение
    Практика:
    адаптиция признаков и моделей к свойствам архитектуры, функциональным и нефункциональным требованиям
    Домашняя работа:
    настроить потоковый пайплайн для обработки данных с задержкой

    Урок № 7 — Мониторинг и обслуживание моделей
    Теория:
    детекция дрифта + автоматический ретранинг (Evidently, MLflow)
    использование AutoML, полезные функции
    как дебажить падающую модель в продакшене
    Практика:
    реализация систем мониторинга для моделей
    Домашняя работа:
    настроить алертинг при дрифте данных

    Неделя 4. Feature Store, MLOps, оптимизация ресурсов
    На этой неделе учимся:
    научимся планировать ресурсы и масштабировать ML-продукты
    поговорим про CI/CD и релизный цикл
    научимся считать ресурсы CPU, GPU для cервисов, тестировать и контролировать релизы

    Урок № 8 — Feature Store и MLOps
    Теория:
    когда и зачем нужен Feature Store (Hopsworks, Feast)
    интеграция с CI/CD
    тестирование моделей перед деплоем: Data Integrity Tests, Feature Tests, Model Quality tests
    Практика:
    создание, наполнение, взаимодействие с Feature Store
    Домашняя работа:
    разработка тестов для моделей и признаков в CI/CD

    Урок № 9 — Оптимизация ресурсов
    Теория:
    как снизить стоимость ML в облаке: автоскейлинг, spot instances
    Практика:
    кейс: как экономить на инференсе на примере Spotify

    Неделя 5. Связка продуктовых и бизнес-метрик

    Урок № 10 — Продуктовые метрики и эксперименты
    Теория:
    как связать продуктовые и бизнес-метрики
    как оценить влияние модели на бизнес (incremental lift, CUPED).
    ликбез по A/B тестам для Data Scientist
    почему A/B тесты могут врать (псевдо-рандомизация, сезонность)
    Практика:
    разработка интегральной метрики, учитывающей счастье пользователя и бизнес метрики для digital продукта.
    проверка статистической значимости изменений
    Домашняя работа:
    промоделировать A/B тест внедрения модели, оценить значимость изменения целевой метрики

    Урок № 11 — Что делать, когда ML не работает
    BigTech-кейсы, где ML проигрывает простым правилам
    как аргументировать отказ от ML перед бизнесом

    Неделя 6. Дипломный проект
    Автоматизировать обработку обращений клиентов с помощью классификации обращений.

    Проект будет разбит на 2 этапа:
    бизнес часть с формулировкой требований и полезности
    разработка архитектуры и техническая реализация MVP
    По желанию проект можно будет защитить в live-режиме и получить фидбек

    В итоге прокачаем hard’ы до уровня Senior в BigTech и научимся:
    • Работать с «грязными» данными, искать смещения и дрифты
    • Использовать Feature engineering в real time системах и генерировать признаки с пониманием вычислительной сложности
    • Оптимизировать ML-модели для продакшна
    • Использовать специфику актуальных ML/DL моделей для работы с табличными и текстовыми данными
    • Контролировать жизненный цикл моделей в продакшне и строить мониторинги
    • Работать с MLOps инструментами и взаимодействовать с инфраструктурой
    Преподает: Дмитрий Сафонов, Data Science Team Lead в Яндекс
    разрабатываю алгоритмы антифрода рекламы, руковожу ML-командой - Яндекс
    cтроил прогнозные модели биржевых индикаторов, разработал инфраструктуру для автоматизации ML-процессов - Quantum Brains
    преподавал анализ данных на Python - СПБГЭУ

    Тариф Стандарт

    Стоимость: 52600 руб.
    Скрытая ссылка
     
    1 человеку нравится это.
  2. Последние события

    1. ZED86
      ZED86 участвует.
      23 сен 2025 в 09:07
    2. geek_boy
      geek_boy участвует.
      20 сен 2025 в 10:23
    3. x-stream
      x-stream участвует.
      20 сен 2025 в 07:00
    4. blackfish
      blackfish участвует.
      19 сен 2025 в 21:21

    Последние важные события

    1. skladchik.com
      Робертович организатор.
      18 сен 2025 в 08:55