Data Science PRO

Анализ данных и искусственный интеллект

Data Scientist — специалист по анализу данных, владеющий математикой, статистикой и Python, включая работу с нейронными сетями. Он обрабатывает большие объемы данных, строит прогнозные модели и создает аналитические отчеты с визуализациями для бизнес-решений. Основная задача — извлечение полезной информации, выявление тенденций и прогнозирование с использованием статистики и машинного обучения.

Обязанности Data Scientist:

Обрабатывать и анализировать данные статистическими методами
Разрабатывать отчеты и визуализации для представления данных
Выявлять тренды и закономерности в данных
Прогнозировать события с использованием статистики и ML
Подготавливать данные для анализа и моделирования
Формировать аналитические отчеты для бизнес-решений

Программа профессиональной переподготовки «Data Science Pro» разработана для знакомства с основными технологиями и подходами анализа данных и предназначена для тех, кто хочет освоить новую востребованную цифровую профессию специалиста по большим данным, начиная с базового уровня.

Программа включает много практической работы, а также лекции, вебинары и учебные консультации. Обучение проходит под руководством высококлассных преподавателей-разработчиков и практиков, кандидатов технических наук, доцентов МГТУ им. Н.Э. Баумана, с интересными домашними заданиями, персонализированной обратной связью и дополнительными учебными материалами.

Преимущества курса «Data Science PRO»:

Обучение в онлайн-формате в режиме 24х7 из любой удобной локации.
Глубокие фундаментальные знания, актуальная необходимая теория и много прикладной практики.
Интенсивное прохождение программы за 3,5 месяца для быстрого старта в профессии.
Занятия с ведущими преподавателями-практиками МГТУ им. Н.Э. Баумана и профильными экспертами.
Доступ к пройденным материалам в течение 4 месяцев после окончания курса.
Помощь в трудоустройстве (рекомендуем резюме лучших выпускников индустриальным партнерам).
Диплом о профпереподготовке МГТУ им. Н.Э. Баумана.

В ходе обучения и подготовки выпускной работы слушатель выполняет проекты по реальным кейсам в портфолио для дальнейшего трудоустройства и будущей профессиональной деятельности. После успешного прохождения итоговой аттестации выпускники программы получат диплом о профессиональной переподготовке МГТУ им. Н.Э. Баумана.

Программа профессиональной переподготовки «Data Science PRO» предназначена для начинающих специалистов. Если у вас уже есть базовые знания работы с данными, рекомендуем обратить внимание на другие курсы, предназначенные для углубленного и продвинутого изучения наиболее востребованных профессий в данной области:

Для определения уровня вашей подготовки рекомендуем пройти бесплатное тестирование.

Записаться на курс Узнать свой уровень знания Data Science Связаться и узнать подробнее

Программа курса

17 тематических
модулей

262 академических
часа

147 аудиторных
часов

Анализ данных и искусственный интеллект

Data Science PRO

Программа курса в PDF

Записаться на курс Связаться и узнать подробнее

В этом курсе вас ожидает

17 тематических
модулей

262 академических
часа

Введение в Big data. Знакомство с основными понятиями. Статистика.

Введение в предмет.
Какие бывают источники данных, характеристики, корреляция.
Типы структурированности данных.
Введение в статистику. Типы распределений данных. Проверка гипотез, матрицы ошибок.
Структуры данных.
Техническое задание и требование к проекту Big data, data science.

Базы данных, их типы и моделирование. Взаимодействие пользователей с данными.

Системы хранения данных. Базы данных.
Реляционные базы данных и их моделирование.
PGAdmin. SQL, синтаксис обращения к базам данных. Простые и сложные запросы.
Решение практического кейса: «Создание базы данных университета».

Языки программирования, среды исполнения и основные операционные системы, которые используются в задачах Big Data

Введение в Python, среды исполнения (IDE).
Типы данных в Python. Базовые конструкции и структуры.
Циклы и условия.
Функции и классы.
Библиотеки Numpy, Scipy для научных вычислений.
Библиотека Pandas, как стандарт исследования данных.
Визуализация в Python и срезы данных. Библиотеки Matplotlib, seaborn, plotly.
Работа с командной строкой. Linux, Wiпdows.
Решение практического кейса: «Визуализация данных с использованием основных библиотек языка программирования Python в среде Jupyter Notebook».

Основной pipeline машинного обучения и dataflow. Облачные платформы

Piprline машинного обучения. Особенности архитектурных решений.
Sklearn - основная ML библиотека. Ленивые вычисления.
Решение практического кейса: «Создание пайплайна для проекта по машинному обучению с использованием библиотеки Sklearn».

Парсинг данных, подготовка выборки, препроцессинг и балансировка данных

Ключевые задачи в подготовке датасетов и их важность.
Нормализация и стандартизация. Поиск аномалий и выбросов. Методы обработки и визуализации.
Разбалансированные датасеты и методы балансировки. Доверительные интервалы.
Обработка категориальных признаков. LabelEncoder, One Hot encoding.
Решение практического кейса: «Применение техник препроцессинга данных для подготовки датасета к решению задач машинного обучения».

Обучение без учителя. Работа с размерностью и структурой данных

Обучение на размеченных и неразмеченных данных. Проблема снижения размерности данных.
Метод главных компонент (Principal Component Analysis).
Алгоритмы кластеризации. Метод k-means, c means, hierarchical clustering. Выбор алгоритма кластеризации.
Решение практического кейса: «Снижение размерности в задаче определения кредитного потенциала заемщика».
Решение практического кейса: «Кластеризация городов Российской Федерации по типу прироста (убыли) населения».

Теория вероятности и вероятностные классификаторы

Полная и условная вероятность, теорема Байеса Байесовский вероятностный классификатор.
Решение практического кейса: «Решение задачи классификации осколков стекла по их химическому составу «Glass Identification Data Set».

Классификация. Оценка качества алгоритма

Задача классификации. Матрица ошибок (Confusion matrix). Точность классификации.
Модель анализа ROC-AUC. Методы классификации. Метод ближайших соседей k-NN. Метод опорных векторов (SVM).
Решение практического кейса: «Оценка и классификация кредитного потенциала заемщиков».

Ансамбли и повышение точности алгоритмов

Ансамбли решателей.
Решающие деревья (Decision tree). Случайный лес (Random forest).
Ансамбли алгоритмов. Bagging, boosting, stacking.
Основы составления сеток обучения.
Решение практического кейса: «Решение задач медицинской диагностики с применением ансамблей классификаторов».
Решение практического кейса: «Решение задачи анализа сетевой активности с использованием алгоритма AdaBoost».

Регрессия

Линейная регрессия. Логистическая регрессия. Метод наименьших квадратов. Средняя квадратичная ошибка, средняя абсолютная ошибка.
Авторегрессия ARIMA.
Решение практического кейса: «Прогнозирование объемов продаж товаров торгового предприятия».
Решение практического кейса: «Оценка кредитоспособности клиентов банка - физических лиц».

Нейронные сети

Введение в искусственные нейронные сети.
Биологическая модель нейрона. Активационные функции.
Полносвязные нейронные сети.
Методы обучения нейронных сетей.
Борьба с переобучением.
Нейронные сети Кохонена.
Сверточные нейронные сети.
Решение практического кейса: «Моделирование объемов продаж торгового предприятия с использованием нейронных сетей».
Решение практического кейса: «Анализ банковского сектора с применением нейронных сетей Кохонена».

Промежуточная аттестация

Зачет.

Разработка компьютерных программ: написание программного кода и решение практических задач с применением нейронных сетей

Решение практического кейса: «Разработка приложения на языке программирования Python для решения задачи компьютерного зрения с использованием нейронных сетей».

Рекомендательные системы

Введение. Коллаборативная и Content-based фильтрация.
Сингулярное (SVD) разложение матрицы. Достоинства и недостатки.
Решение практического кейса: «Создание рекомендательной системы торгового предприятия».

Создание приложений, интеграция в ИТ ландшафт

Сортирование и сохранение моделей. Работа с предобученными моделями.
Flask приложение.
Выведение моделей в production.
Контроль версионности моделей с tensorflow sesrving.
Облачная платформа Kaggle для решения data science задач.
Решение практического кейса: «Создание flask приложения для запуска моделей машинного обучения».

Промежуточная аттестация