Отчет о лаботарорной работе - polpoz.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Отчет по лабораторной работе №6 По теме: Сериализация 1 34.01kb.
«Приближенные методы вычисления корней уравнений» 1 55.56kb.
Отчет по Лабораторной работе №2 1 27.39kb.
Отчет по практической работе «Выбор конфигурации пк в соответствии... 1 74.95kb.
Объединенных 4 1002.27kb.
Сто тридцать пятая сессия Рим, 17-18 ноября 2008 года Отчет о работе... 1 64.23kb.
Отчет о работе управляющей компании ОАО «ЖилКомЭнерго» по содержанию... 1 317.85kb.
Отчет о лабораторной работе №1 Барнаул 2011 Лабораторная №1 Вариант... 1 278.48kb.
Отчет по курсовой работе по дисциплине " Системное Программное Обеспечение" 10 683.95kb.
Отчет по лабораторной работе №1 по дисциплине электроника 1 107.96kb.
Отчет о работе Тверского регионального отделения Общероссийской общественной... 1 44.67kb.
TriCaster студия в коробке 1 39.68kb.
1. На доске выписаны n последовательных натуральных чисел 1 46.11kb.

Отчет о лаботарорной работе - страница №1/1


Министерство образования Российской Федерации
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ ИНСТИТУТ

ЭЛЕКТРОНИКИ И МАТЕМАТИКИ (ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)



ОТЧЕТ О ЛАБОТАРОРНОЙ РАБОТЕ

Методы и средства анализа данных

по теме:


«Система анализа данных WEKA»
Руководитель темы ______________ И. Игнатьев

подпись, дата


Исполнитель ________________ И. Савин

подпись, дата Группа С-74



Введение


Лабораторная работа посвящена анализу данных в системе анализа данных Weka. Эта система написана на Java и представляет собой систему библиотек функций обработки данных, плюс несколько графических интерфейсов к этим библиотекам. Основной интерфейс системы - Explorer. Он позволяет выполнять практически все действия, которые предусмотрены в системе. Именно в нем мы будем работать. Также в системе Weka предусмотрены другие интерфейсы - Knowledge Flow для работы с большими массивами данных (Explorer загружает все дынные в память сразу, и потому работа с большими массивами затруднена) и Experimenter для экспериментального подбора наилучшего метода анализа данных.

В данной лабораторной работе изучаются методы классификации и поиска ассоциативных правил. Для лучшего понимания различий между данными методами используется система анализа данных Weka, в которой все исследуемые методы применяются к одному и тому же набору исходных данных, а полученные результаты анализируются и сравниваются между собой.


Подготовка данных


Подготовка данных представленных в формате cvs заключалась в следующем: данные были загружены в своем формате в Weka, затем сохранены в формате arff, при этом в файл были добавлены метаданные с типом каждой переменной. Для удобства дальнецшей работы переменные были переименованы в соответствии.

При переводе в другой формат некоторые переменные сменили тип с числа с плавающей точкой на целые числа, однако это не привело к потере данных.


Загрузка данных и их первоначальная обработка


При нажатии кнопки Visualize All выводится распределение всех атрибутов по зависимой переменной в графическом виде. Это позволяет оценить вариацию значений переменных и доли их участия. Например (см. скрин), преобладают наборы данных класса smurf(бирюзовый), is_host_login всегда ноль.

Фильтры пригодятся только для ID3 и Apriory.




Классификация данных

Метод Naive Bayes


Этот метод основывается на анализе данных по всем исходным переменным. Формулируются правила, в условных частях которых сравниваются все независимые переменные с соответствующими возможными значениями. Оценив ошибки, выбирается переменная, для которой ошибка набора минимальна. Для каждого значения атрибута обучающего множества приводится его вероятность, а также выкладки по всем атрибутам тестового множества, включающие в себя средние значения и точность (количество совпадений тестового набора и обучающего множества) для численных (перечислимых) типов данных.

Метод 1R


Метод классификации 1R – один из самых простых методов классификации. Применяется как к числовым данным, которые разбиваются на промежутки, так и к данным типа nominal.

Метод выбирает переменные принимающие наибольшее возможное количество значений, для таких переменных ошибка и будет наименьшей.

В методе 1R выявленно практически безошибочное правило зависимости переменной class от count: (32049/32589 instances correct, точность 98.2939%)

count:


< 47.5 -> normal.

< 51.5 -> neptune.

< 58.5 -> normal.

< 65.5 -> neptune.

< 69.5 -> normal.

< 301.0 -> neptune.

>= 301.0 -> smurf.

(32049/32589 instances correct)

Классификация методом ID3


Этот алгоритм требует, чтобы во входном наборе содержались только данные номинального типа. Для этого выбираем filter->unsupervised->attribute->RemoveType и удаляем все типы данных кроме nominal.

Оставшиеся после применения фильтра переменные


После применения фильтров в наборе остаются только данные номинального типа. С ними и продолжает работу алгоритм. Далее для работы алгоритма необходимо отсутствие пустых значений. Чтобы осуществить это применяется фильтр ReplaceMissingValues, заменяющий пустые значения средними.

Классификация методом J4.8 (модификация С4.5)


Более развитая модификация ID3 имеющая 2 улучшениями алгоритма, по сравнению с ID3:

  • Возможность работать не только с категориальными атрибутами, но также с числовыми.

  • После построения дерева происходит усечение его ветвей. Если получившееся дерево слишком велико, выполняется либо группировка нескольких узлов в один лист, либо замещение узла дерева нижележащим поддеревом. Перед операцией над деревом вычисляется ошибка правила классификации, содержащегося в рассматриваемом узле. Если после замещения (или группировки) ошибка не возрастает (и не сильно увеличивается энтропия), значит замену можно произвести без ущерба для построенной модели.

Фрагмент дерева J48


График ошибок метода J48


графики границы (разницы между реальным предсказанным значением и наиболее близким к нему не предсказанным)


графики зависимости классификации от порога отнесения записи к классу (Threshold curve)



графики цены ошибки классификации(cost curve)


Классификация методом SVM


Данный метод является алгоритмом классификации с использованием математических функций. Метод использует нелинейные математические функции. Номинальные данные преобразуются в числовые. Основная идея метода опорных векторов – перевод исходных векторов в пространство более высокой размерности и поиск максимальной разделяющей гиперплоскости в этом пространстве.

На выводе алгоритма показываются веса для всех возможных атрибутов, при этом заметна задержка его вывода из-за проведения расчетов.

В итоге вывод данного алгоритма представлен в виде вектора n-мерного пространства. Цифры указанные в выводе – коэффициенты задающие плоскость, разделяющую исходные данные на классы.

Поиск ассоциативных правил

Метод Apriory


На вкладке Associate выбирается метод нахождения, для него выставляются параметры кликом на его названии, после чего нажимается кнопка Start и анализируется вывод. При необходимости применяются фильтры (в данном случае применяются фильтры, аналогичные использованным для метода ID3).

При анализе данных видно, что поиск ассоциативных правил происходит в 2 этапа: сначала выполняется поиск частных наборов объектов, а затем из найденных частных наборов генерируются правила.







izumzum.ru