- Цели и задачи дисциплины
- Целью дисциплины является ознакомление бакалавров с основными методами построения хранилищ данных и алгоритмами решения задач интеллектуального анализа данных в хранилищах данных.
- Краткое содержание дисциплины
- Введение в дисциплину. Феномен Больших данных. Технологический цикл анализа данных. Методы построения хранилищ данных. Понятия оперативного и интеллектуального анализа данных. Основные задачи интеллектуального анализа данных: поиск шаблонов, классификация, кластеризация. Поиск шаблонов. Понятия транзакции, частого набора, шаблона, поддержки, достоверности. Алгоритм Apriori поиска частых наборов. Выбор полезных шаблонов на основе мер support и confidence. Классификация. Процесс классификации: обучение модели, оценка модели, применение модели. Деревья решений. Меры оценки доли примесей в узле дерева решений: индекс Джини, энтропия; алгоритмы классификации ID3, C4.5, CART. Оценка качества классификации: меры Accuracy, Precision, Recall, F1. Ансамблевая классификация: бэггинг, бустинг, случайный лес. Кластеризация. Задачи кластеризации данных и подходы к ее решению. Разделительная кластеризация: алгоритмы k-means и k-medoids. Иерархическая кластеризация: дендрограммы, агломеративный и дивизимный подход. Меры схожести кластеров: Single linkage, Complete linkage, Group average и др. Меры качества кластеризации: метод локтя, силуэтный коэффициент и др. Поиск аномалий. Понятия аномалии (выброса), шума, новизны в данных. Виды аномалий: точечные, глобальные, контекстные, смешанные. Статистические методы поиска аномалий: z-значимость, правило трех сигм, гистограммы. Поиск аномалий на основе расстояния. Поиск аномалий на основе плотности: метод вложенных циклов, метод решеток. Поиск аномалий с помощью разделительной и плотностной кластеризации. Поиск аномалий на основе классификации: метод One Class SVM, метод изолирующего леса.
- Компетенции обучающегося, формируемые в результате освоения дисциплины
- Выпускник должен обладать:
- ПК-1 Способен формулировать требования к разработке программного обеспечения на основе анализа предметной области, осуществлять проектирование программного обеспечения с учетом архитектуры вычислительных систем (включая многопроцессорные вычислительные системы), использовать инструментальные и вычислительные средства при разработке алгоритмических и программных решений для решения задач профессиональной деятельности
- Образование
- Учебный план 09.03.04, 2022, (4.0), Программная инженерия
- Технологии хранилищ данных