Junior machine learning engineer: инженер машинного обучения

Анализ данных и искусственный интеллект

Центр дополнительного образования МГТУ им. Н.Э. Баумана в целях выполнения программы стратегического академического лидерства «Приоритет-2030» разработал курс по направлению анализа данных: «Junior machine learning engineer: инженер машинного обучения».

К 2030 году более 30% данных будут критически важными и это только для повседневной жизни. Особое внимание сейчас обращено не только на хранение данных, но и их обработку, в том числе с использованием алгоритмов машинного обучения. Для того, чтобы разбираться в массивах больших данных недостаточно обладать навыками программирования на Python и знать основы языка SQL. Эти базовые навыки необходимо дополнить умением грамотно составлять описательный анализ, разбираться в алгоритмах машинного обучения и ориентироваться в преимуществах и недостатках алгоритмов машинного обучения. Данный курс охватывает все эти вопросы и научит подбирать модель машинного обучения, обучать и использовать в дальнейшей работе, анализируя результат. Курс подойдет специалистам, которые обладают базовыми знаниями в анализе больших данных и хотят изучать эту область углубленно.

Продолжительность курса составляет 52 академический часа. Занятия включают в себя лекционные материалы, решение практико-ориентированных кейсов, домашние задания и итоговое тестирование. Преподаватели – не только ведущие ученые – практики, но и специалисты в области больших данных (Big Data) и науке о данных (Data science).

Для успешного освоения курса нашим слушателям предоставляются уникальные опции:

  • оперативная поддержка куратора по всем вопросам обучения в чате Telegram, где слушатель может задать вопросы как во время обучения, так и в неограниченный период времени после завершения курса,

  • онлайн-консультация эксперта-преподавателя по пройденным темам и выполнению практических заданий.

По окончании курса слушатель получит удостоверение о повышении квалификации МГТУ им. Н.Э. Баумана.

МГТУ им. Баумана

Записаться на курс

Расписание

Даты проведения
Время проведения и дни недели
Формат обучения
Длительность курса
Стоимость
01 авг
01 сен
10:00 - 10:00
свободный график
свободное обучение
52 ак. часа
30 938 руб 24 750 руб цена со скидкой 20%
Конкуренция на рынке труда?
Сейчас не хватает специалистов
10 000 компаний
сейчас ищут инженера машинного обучения
80 000 рублей
средняя зарплата специалиста в сфере машинного обучения

Курс подойдет

Начинающим аналитикам

узнаете основные задачи и методы машинного обучения, научитесь ставить и решать задачи машинного обучения и подбирать модели для решения разного рода задач

Начинающим программистам

углубите свои знания Python, математики и статистики, освоите основные алгоритмы машинного обучения и отработаете навыки на практических задачах.

Чему вы научитесь

выполнять препроцессинг данных, с использованием математических приёмов

снимать метрики качества модели

обучать и использовать модели

подбирать модели машинного обучения для решения практических задач

навыкам парсинга данных

ставить и решать элементарные задачи машинного обучения. Прогнозировать значения, определять категории объектов, делать кластеризацию и оценку вероятности

Программа курса

20 тематических
модулей
52 академических
часа
52 аудиторных
часа
Обзор библиотеки sklearn
  • Библиотека scikit-learn (sklearn), назначение, разделы, способы работы, импорт библиотеки в Python.
  • Работа с библиотекой scikit-learn (sklearn).
Метод главных компонент PCA. Метод t-SNE для линейно разделимой выборки
  • Методы уменьшения размерности PCA и t-SNE, даны определения линейно-разделимой и неразделимой выборки, в каких датасетах и в каких данных необходимо уменьшение размерность.
  • Изменение размерности датасета.
Кластеризация. Метод k-means, c-means
  • Алгоритмы кластеризации k-mean и c-means, как примеры обучения без учителя, основные особенности. Написание кода алгоритма на Python.
  • Кластеризация датасета используя алгоритмы k-means, c-means.
Иерархическая кластеризация — hierarchical clustering. Алгоритм кластеризации DBSCAN
  • Алгоритмы иерархической кластеризации и алгоритм DBSCAN. Преимущества и недостатки.
  • Кластеризация научных патентов с применением hierarchical clustering и DBSCAN.
Ключевые задачи в подготовке датасетов и их важность
  • Подготовка датасетов, проверка на полноту, оценка пропущенных значений, валидация данных и источников, достоверность, многообразие.
Разбалансированные датасеты и методы балансировки
  • Разбалансированный датасет и балансировка, миноритарный класс, мажоритарный класс. Применение методов увеличения миноритарного класса (upsampling) и уменьшения мажоритарного класса (downsampling).
  • Применение методов балансировки датасетов.
Библиотека Beautifulsoup. Парсинг данных из html страниц
  • Метод и реализация парсинга (сбора) данных из открытых источников в интернете с применением библиотеки beautifulsoup. Будет предложен вариант навигации по коду html страниц.
  • Выполнить парсинг двух страниц с сайта https://zakupki.gov.ru/ по каждой закупке.
Обработка категориальных признаков. LabelEncoder, One Hot encoding
  • Категориальные и числовые признаки, а также методы обработки категориальных признаков LaberlEncoder, One Hot encoding. Оптимальные методы обработки категориальных признаков.
  • Загрузить и собрать датасет (датасет описывает классические автомобили), определить категориальные признаки, применить методы LabelEncoder, One Hot Encoding.
Полная и условная вероятность, теорема Байеса
  • Понятия полной и условной вероятности, теорема Байеса, зависимые и независимые события.
Байесовский вероятностный классификатор
  • Вероятностные классификаторы Байеса (Gaussian Naive Bayes, Multinomial Naive Bayes, Complement Naive Bayes, Bernoulli Naive Bayes, Categorical Naive Bayes) для решения задач классификации.
  • Обучение двух Байесовских классификаторов, прогнозирование вероятностей возникновения лесных пожаров. Выполнение прогноза на проверочных данных.
Метрики классификации. Матрица ошибок (Confusion -matrix) Precision, recall, f1. ROC-AUC
  • Метрики ошибок при решении задач классификации, даны определения для метрик precision, recall, f1-мера, построение ROC Кривой.
  • Комплексная оценка работы алгоритма по набору метрик.
Кросс-валидация. Особенности применения
  • Понятие кросс-валидации, преимущества при оценке и проверке качества алгоритмов машинного обучения.
Метод ближайших соседей k-NN. Метрики подсчета расстояния. Плюсы и минусы алгоритма
  • Алгоритм машинного обучения - метод ближайших соседей (k-NN), для решения задач классификации. Область решаемых задач. Плюсы и минусы алгоритма.
  • Обучение алгоритма k-NN, с использованием двух разных метрик близости. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Метод опорных векторов (SVM). Линейно разделимые и неразделимые выборки, методы обработки. Плюсы и минусы алгоритма
  • Алгоритм - метод опорных векторов, проблема линейно не разделимой выборки и методы её решения. Область решаемых задач, плюсы и минусы алгоритма.
  • Обучение алгоритма SVM. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Линейная регрессия. Логистическая регрессия
  • Основные термины и понятия линейной регрессии, логистической регрессии, регуляризации, смещения и дисперсии (разброса).
  • Обучение алгоритма линейной регрессии для прогнозирования значений. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Метод наименьших квадратов. Средняя квадратичная ошибка, средняя абсолютная ошибка
  • Метрики оптимизации и ошибок для задач регрессии: метод наименьших квадратов, средняя абсолютная и квадратичная ошибки.
  • Решение задач методом наименьших квадратов.
Решающие деревья (Decision tree)
  • Алгоритм решающих деревьев (Decision tree), для решения прикладных задач, области решаемых задач, плюсы и минусы алгоритма.
  • Обучение алгоритма Decision tree. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Случайный лес (Random forest)
  • Алгоритм случайного леса (Random forest), ключевые отличия от decision tree, области решаемых задач, плюсы и минусы алгоритма.
  • Обучение алгоритма Random forest. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Ансамбли алгоритмов. Bagging, boosting, stacking
  • Ансамблевые алгоритмы для повышения точности. bagging - параллельный, boosting - последовательный, stacking - совместный запуск алгоритмов. Области решаемых задач, плюсы и минусы подхода.
  • Обучение алгоритма. Применение Boosting и bagging ансамбля. Прогнозирование на проверочных данных. Снятие метрик и ошибок модели.
Итоговая аттестация
  • Тестирование.

Преподаватели курса

Преподавательский состав Центра дополнительного образования МГТУ им. Н.Э. Баумана состоит из профессионалов лучшего технического ВУЗа России с многолетним опытом работы в ведущих отраслевых компаниях. Многие из наших специалистов имеют ученые степени и звания.

Наши преподаватели искренне любят свое дело: структурированно и последовательно излагают материал, доступно объясняют верные решения сложных профессиональных задач и разбирают только реальный опыт крупнейших российских и зарубежных компаний. Так, после окончания обучения слушатели Центра дополнительного образования МГТУ им. Н.Э. Баумана могут сразу же применять свои знания и навыки на практике.

Резюме «Инженер машинного обучения»

Знания и навыки

  • Обучение и тестирование моделей машинного обучения

  • Генерация и проверка гипотез

  • Оценка качества алгоритмов

  • Взаимодействие с бизнесом и объяснение результатов анализа

  • Организация сборки новых версий из исходного кода

Заработная плата от:
80 000 руб.
Желаемая должность:
Инженер машинного обучения

Документы об окончании

МГТУ им. Баумана
МГТУ им. Баумана
Задать свой вопрос
+7 (495) 187-85-85
do@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00
+7 (495) 187-85-85
do@bmstu.ru Мы работаем ежедневно с 9:00 до 21:00