Junior machine learning engineer: инженер машинного обучения

Анализ данных и искусственный интеллект

Центр дополнительного образования МГТУ им. Н.Э. Баумана в целях выполнения программы стратегического академического лидерства «Приоритет-2030» разработал курс по направлению анализа данных: «Junior machine learning engineer: инженер машинного обучения».

К 2030 году более 30% данных будут критически важными и это только для повседневной жизни. Особое внимание сейчас обращено не только на хранение данных, но и их обработку, в том числе с использованием алгоритмов машинного обучения. Для того, чтобы разбираться в массивах больших данных недостаточно обладать навыками программирования на Python и знать основы языка SQL. Эти базовые навыки необходимо дополнить умением грамотно составлять описательный анализ, разбираться в алгоритмах машинного обучения и ориентироваться в преимуществах и недостатках алгоритмов машинного обучения. Данный курс охватывает все эти вопросы и научит подбирать модель машинного обучения, обучать и использовать в дальнейшей работе, анализируя результат. Курс подойдет специалистам, которые обладают базовыми знаниями в анализе больших данных и хотят изучать эту область углубленно.

Продолжительность курса составляет 52 академический часа. Занятия включают в себя лекционные материалы, решение практико-ориентированных кейсов, домашние задания и итоговое тестирование. Преподаватели – не только ведущие ученые – практики, но и специалисты в области больших данных (Big Data) и науке о данных (Data science).

Для успешного освоения курса нашим слушателям предоставляются уникальные опции:

  • оперативная поддержка куратора по всем вопросам обучения в чате Telegram, где слушатель может задать вопросы как во время обучения, так и в неограниченный период времени после завершения курса,

  • онлайн-консультация эксперта-преподавателя по пройденным темам и выполнению практических заданий.

По окончании курса слушатель получит удостоверение о повышении квалификации МГТУ им. Н.Э. Баумана.

Записаться на курс

Ближайший старт групп

24 апреля

Длительность курса

52 ак. часа

Форматы обучения

свободное обучение
Конкуренция на рынке труда?
Сейчас не хватает специалистов
10 000 компаний
сейчас ищут инженера машинного обучения
80 000 рублей
средняя зарплата специалиста в сфере машинного обучения

Курс подойдет

Начинающим аналитикам

узнаете основные задачи и методы машинного обучения, научитесь ставить и решать задачи машинного обучения и подбирать модели для решения разного рода задач

Начинающим программистам

углубите свои знания Python, математики и статистики, освоите основные алгоритмы машинного обучения и отработаете навыки на практических задачах.

Чему вы научитесь

выполнять препроцессинг данных, с использованием математических приёмов

снимать метрики качества модели

обучать и использовать модели

подбирать модели машинного обучения для решения практических задач

навыкам парсинга данных

ставить и решать элементарные задачи машинного обучения. Прогнозировать значения, определять категории объектов, делать кластеризацию и оценку вероятности

Программа курса

20 тематических
модулей
52 академических
часа
52 аудиторных
часа
Обзор библиотеки sklearn
  • Библиотека scikit-learn (sklearn), назначение, разделы, способы работы, импорт библиотеки в Python.
  • Работа с библиотекой scikit-learn (sklearn).
Метод главных компонент PCA. Метод t-SNE для линейно разделимой выборки
  • Методы уменьшения размерности PCA и t-SNE, даны определения линейно-разделимой и неразделимой выборки, в каких датасетах и в каких данных необходимо уменьшение размерность.
  • Изменение размерности датасета.
Кластеризация. Метод k-means, c-means
  • Алгоритмы кластеризации k-mean и c-means, как примеры обучения без учителя, основные особенности. Написание кода алгоритма на Python.
  • Кластеризация датасета используя алгоритмы k-means, c-means.
Иерархическая кластеризация — hierarchical clustering. Алгоритм кластеризации DBSCAN
  • Алгоритмы иерархической кластеризации и алгоритм DBSCAN. Преимущества и недостатки.
  • Кластеризация научных патентов с применением hierarchical clustering и DBSCAN.
Ключевые задачи в подготовке датасетов и их важность
  • Подготовка датасетов, проверка на полноту, оценка пропущенных значений, валидация данных и источников, достоверность, многообразие.
Разбалансированные датасеты и методы балансировки
  • Разбалансированный датасет и балансировка, миноритарный класс, мажоритарный класс. Применение методов увеличения миноритарного класса (upsampling) и уменьшения мажоритарного класса (downsampling).
  • Применение методов балансировки датасетов.
Библиотека Beautifulsoup. Парсинг данных из html страниц
  • Метод и реализация парсинга (сбора) данных из открытых источников в интернете с применением библиотеки beautifulsoup. Будет предложен вариант навигации по коду html страниц.
  • Выполнить парсинг двух страниц с сайта https://zakupki.gov.ru/ по каждой закупке.
Обработка категориальных признаков. LabelEncoder, One Hot encoding
  • Категориальные и числовые признаки, а также методы обработки категориальных признаков LaberlEncoder, One Hot encoding. Оптимальные методы обработки категориальных признаков.
  • Загрузить и собрать датасет (датасет описывает классические автомобили), определить категориальные признаки, применить методы LabelEncoder, One Hot Encoding.
Полная и условная вероятность, теорема Байеса
  • Понятия полной и условной вероятности, теорема Байеса, зависимые и независимые события.
Байесовский вероятностный классификатор
  • Вероятностные классификаторы Байеса (Gaussian Naive Bayes, Multinomial Naive Bayes, Complement Naive Bayes, Bernoulli Naive Bayes, Categorical Naive Bayes) для решения задач классификации.
  • Обучение двух Байесовских классификаторов, прогнозирование вероятностей возникновения лесных пожаров. Выполнение прогноза на проверочных данных.
Метрики классификации. Матрица ошибок (Confusion -matrix) Precision, recall, f1. ROC-AUC
  • Метрики ошибок при решении задач классификации, даны определения для метрик precision, recall, f1-мера, построение ROC Кривой.
  • Комплексная оценка работы алгоритма по набору метрик.
Кросс-валидация. Особенности применения
  • Понятие кросс-валидации, преимущества при оценке и проверке качества алгоритмов машинного обучения.
Метод ближайших соседей k-NN. Метрики подсчета расстояния. Плюсы и минусы алгоритма
  • Алгоритм машинного обучения - метод ближайших соседей (k-NN), для решения задач классификации. Область решаемых задач. Плюсы и минусы алгоритма.
  • Обучение алгоритма k-NN, с использованием двух разных метрик близости. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Метод опорных векторов (SVM). Линейно разделимые и неразделимые выборки, методы обработки. Плюсы и минусы алгоритма
  • Алгоритм - метод опорных векторов, проблема линейно не разделимой выборки и методы её решения. Область решаемых задач, плюсы и минусы алгоритма.
  • Обучение алгоритма SVM. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Линейная регрессия. Логистическая регрессия
  • Основные термины и понятия линейной регрессии, логистической регрессии, регуляризации, смещения и дисперсии (разброса).
  • Обучение алгоритма линейной регрессии для прогнозирования значений. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Метод наименьших квадратов. Средняя квадратичная ошибка, средняя абсолютная ошибка
  • Метрики оптимизации и ошибок для задач регрессии: метод наименьших квадратов, средняя абсолютная и квадратичная ошибки.
  • Решение задач методом наименьших квадратов.
Решающие деревья (Decision tree)
  • Алгоритм решающих деревьев (Decision tree), для решения прикладных задач, области решаемых задач, плюсы и минусы алгоритма.
  • Обучение алгоритма Decision tree. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Случайный лес (Random forest)
  • Алгоритм случайного леса (Random forest), ключевые отличия от decision tree, области решаемых задач, плюсы и минусы алгоритма.
  • Обучение алгоритма Random forest. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Ансамбли алгоритмов. Bagging, boosting, stacking
  • Ансамблевые алгоритмы для повышения точности. bagging - параллельный, boosting - последовательный, stacking - совместный запуск алгоритмов. Области решаемых задач, плюсы и минусы подхода.
  • Обучение алгоритма. Применение Boosting и bagging ансамбля. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Итоговая аттестация
  • Тестирование.

Расписание

Даты проведения
Время проведения курса
Дни недели
Формат обучения
Стоимость
24 апр
24 мая
10:00 - 10:00
свободный график
свободное обучение
24 750 руб

Преподаватели курса

Преподавательский состав Центра дополнительного образования МГТУ им. Н.Э. Баумана состоит из профессионалов лучшего технического ВУЗа России с многолетним опытом работы в ведущих отраслевых компаниях. Многие из наших специалистов имеют ученые степени и звания.

Наши преподаватели искренне любят свое дело: структурированно и последовательно излагают материал, доступно объясняют верные решения сложных профессиональных задач и разбирают только реальный опыт крупнейших российских и зарубежных компаний. Так, после окончания обучения слушатели Центра дополнительного образования МГТУ им. Н.Э. Баумана могут сразу же применять свои знания и навыки на практике.

Резюме «Инженер машинного обучения»

Знания и навыки

  • Обучение и тестирование моделей машинного обучения

  • Генерация и проверка гипотез

  • Оценка качества алгоритмов

  • Взаимодействие с бизнесом и объяснение результатов анализа

  • Организация сборки новых версий из исходного кода

Заработная плата от:
80 000 руб.
Желаемая должность:
Инженер машинного обучения

Документы об окончании

Задать свой вопрос
+7 (495) 182-83-85
do@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00
+7 (495) 182-83-85
do@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00