Анализ данных и процессов - Излагаются основные направления в области разработки систем: организация хранилищ данных, оперативный (OLAP) и интеллектуальный (Data Mining) анализ данных. В третьем издании по сравнению со вторым, выходившем под названием "Технологии анализа данных: Data Mining, Text Mining, Visual Mining, OLAP", добавлены визуальный (Visual Mining) и текстовый (Text Mining) анализ данных, анализ процессов (Process Mining), анализ Web-ресурсов (Web mining) и анализ в режиме реального времени (Real-Time Data Mining). Приведено описание методов и алгоритмов решения основных задач анализа: классификации, кластеризации и др. Описание идеи каждого метода дополняется конкретным примером его использования.
Название: Анализ данных и процессов. 3-е издание Автор: Барсегян А. А., Куприянов М. С., Холод И. И., Тесс М. Д., Елизаров С. И. Издательство: БХВ-Петербург Год: 2009 Страниц: 512 Формат: PDF Размер: 7,22 МБ ISBN: 978-5-9775-0368-6 Качество: Отличное Серия или Выпуск: Учебная литература для вузов
Содержание:
Предисловие авторов Data Mining и перегрузка информацией Глава 1. Системы поддержки принятия решений 1.1. Задачи систем поддержки принятия решений 1.2. Базы данных - основа СППР 1.3. Неэффективность использования OLTP-систем для анализа данных Выводы Глава 2. Хранилище данных 2.1. Концепция хранилища данных 2.2. Организация ХД 2.3. Очистка данных 2.4. Концепция хранилища данных и анализ Выводы Глава 3. OLAP-системы 3.1. Многомерная модель данных 3.2. Определение OLAP-систем 3.3. Концептуальное многомерное представление 3.3.1. Двенадцать правил Кодда 3.3.2. Дополнительные правила Кодда 3.3.3. Тест FASMI 3.4. Архитектура OLAP-систем 3.4.1. MOLAP 3.4.2. ROLAP 3.4.3. HOLAP Выводы Глава 4. Интеллектуальный анализ данных 4.1. Добыча данных - Data Mining 4.2. Задачи Data Mining 4.2.1. Классификация задач Data Mining 4.2.2. Задача классификации и регрессии 4.2.3. Задача поиска ассоциативных правил 4.2.4. Задача кластеризации 4.3. Практическое применение Data Mining 4.3.1. Интернет-технологии 4.3.2. Торговля 4.3.3. Телекоммуникации 4.3.4. Промышленное производство 4.3.5. Медицина 4.3.6. Банковское дело 4.3.7. Страховой бизнес 4.3.8. Другие области применения 4.4. Модели Data Mining 4.4.1. Предсказательные модели 4.4.2. Описательные модели 4.5. Методы Data Mining 4.5.1. Базовые методы 4.5.2. Нечеткая логика 4.5.3. Генетические алгоритмы 4.5.4. Нейронные сети 4.6. Процесс обнаружения знаний 4.6.1. Основные этапы анализа 4.6.2. Подготовка исходных данных 4.7. Управление знаниями (Knowledge Management) 4.8. Средства Data Mining Выводы Глава 5. Классификация и регрессия 5.1. Постановка задачи 5.2. Представление результатов 5.2.1. Правила классификации 5.2.2. Деревья решений 5.2.3. Математические функции 5.3. Методы построения правил классификации 5.3.1. Алгоритм построения 1-правил 5.3.2. Метод Naive Bayes 5.4. Методы построения деревьев решений 5.4.1. Методика «разделяй и властвуй» 5.4.2. Алгоритм покрытия 5.5. Методы построения математических функций 5.5.1. Общий вид 5.5.2. Линейные методы. Метод наименьших квадратов 5.5.3. Нелинейные методы 5.5.4. Support Vector Machines (SVM) 5.5.5. Регуляризационные сети (Regularization Networks) 5.5.6. Дискретизации и редкие сетки 5.6. Прогнозирование временных рядов 5.6.1. Постановка задачи 5.6.2. Методы прогнозирования временных рядов Выводы Глава 6. Поиск ассоциативных правил 6.1. Постановка задачи 6.1.1. Формальная постановка задачи 6.1.2. Секвенциальный анализ 6.1.3. Разновидности задачи поиска ассоциативных правил 6.2. Представление результатов 6.3. Алгоритмы 6.3.1. Алгоритм Apriori 6.3.2. Разновидности алгоритма Apriori Выводы Глава 7. Кластеризация 7.1. Постановка задачи кластеризации 7.1.1. Формальная постановка задачи 7.1.2. Меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации 7.2. Представление результатов 7.3. Базовые алгоритмы кластеризации 7.3.1. Классификация алгоритмов 7.3.2. Иерархические алгоритмы 7.3.3. Неиерархические алгоритмы 7.4. Адаптивные методы кластеризации 7.4.1. Выбор наилучшего решения и качество кластеризации 7.4.2. Использование формальных критериев качества в адаптивной кластеризации 7.4.3. Пример адаптивной кластеризации Выводы Глава 8. Визуальный анализ данных - Visual Mining 8.1. Выполнение визуального анализа данных 8.2. Характеристики средств визуализации данных 8.3. Методы визуализации 8.3.1. Методы геометрических преобразований 8.3.2. Отображение иконок 8.3.3. Методы, ориентированные на пикселы 8.3.4. Иерархические образы Выводы Глава 9. Анализ текстовой информации - Text Mining 9.1. Задача анализа текстов 9.1.1. Этапы анализа текстов 9.1.2. Предварительная обработка текста 9.1.3. Задачи Text Mining 9.2. Извлечение ключевых понятий из текста 9.2.1. Общее описание процесса извлечения понятий из текста 9.2.2. Стадия локального анализа 9.2.3. Стадия интеграции и вывода понятий 9.3. Классификация текстовых документов 9.3.1. Описание задачи классификации текстов 9.3.2. Методы классификации текстовых документов 9.4. Методы кластеризации текстовых документов 9.4.1. Представление текстовых документов 9.4.2. Иерархические методы кластеризации текстов 9.4.3. Бинарные методы кластеризации текстов 9.5. Задача аннотирования текстов 9.5.1. Выполнение аннотирования текстов 9.5.2. Методы извлечения фрагментов для аннотации 9.6. Средства анализа текстовой информации 9.6.1. Средства Oracle - Oracle Text 9.6.2. Средства от IBM - Intelligent Miner for Text 9.6.3. Средства SAS Institute - Text Miner 9.6.4. Средства Мегапьютер Интеллидженс - TextAnalyst Выводы Глава 10. Стандарты Data Mining 10.1. Кратко о стандартах 10.2. Стандарт CWM 10.2.1. Назначение стандарта CWM 10.2.2. Структура и состав CWM 10.2.3. Пакет Data Mining 10.3. Стандарт CRISP 10.3.1. Появление стандарта CRISP 10.3.2. Структура стандарта CRISP 10.3.3. Фазы и задачи стандарта CRISP 10.4. Стандарт PMML 10.5. Другие стандарты Data Mining 10.5.1. Стандарт SQL/MM 10.5.2. Стандарт Microsoft Data Mining eXtensions (DMX) 10.5.3. Стандарт Java Data Mining Выводы Глава 11. Библиотека Xelopes 11.1. Архитектура библиотеки 11.2. Диаграмма Model 11.2.1. Классы модели для Xelopes 11.2.2. Методы пакета Model 11.2.3. Преобразование моделей 11.3. Диаграмма Settings 11.3.1. Классы пакета Settings 11.3.2. Методы пакета Settings 11.4. Диаграмма Attribute 11.4.1. Классы пакета Attribute 11.4.2. Иерархические атрибуты 11.5. Диаграмма Algorithms 11.5.1. Общая концепция 11.5.2. Класс MiningAlgorithm 11.5.3. Расширение класса MiningAlgorithm 11.5.4. Дополнительные классы 11.5.5. Слушатели 11.6. Диаграмма DataAccess 11.6.1. Общая концепция 11.6.2. Класс MiningInputStream 11.6.3. Классы Mining-векторов 11.6.4. Классы, расширяющие класс MiningInputStream 11.7. Диаграмма Transformation 11.8. Примеры использования библиотеки Xelopes 11.8.1. Общая концепция 11.8.2. Решение задачи поиска ассоциативных правил 11.8.3. Решение задачи кластеризации 11.8.4. Решение задачи классификации Выводы Глава 12. Распределенный анализ данных 12.1. Системы мобильных агентов 12.1.1. Основные понятия 12.1.2. Стандарты многоагентных систем 12.1.3. Системы мобильных агентов 12.1.4. Система мобильных агентов JADE 12.2. Использование мобильных агентов для анализа данных 12.2.1. Проблемы распределенного анализа данных 12.2.2. Агенты-аналитики 12.2.3. Варианты анализа распределенных данных 12.3. Система анализа распределенных данных 12.3.1. Общий подход к реализации системы 12.3.2. Агент для сбора информации о базе данных 12.3.3. Агент для сбора статистической информации о данных 12.3.4. Агент для решения одной задачи интеллектуального анализа данных 12.3.5. Агент для решения интегрированной задачи интеллектуального анализа данных Выводы Глава 13. Data Mining в реальном времени (Real-Time Data Mining) 13.1. Идея Data Mining в реальном времени 13.1.1. Адаптация системы к общей концепции 13.1.2. Адаптивная добыча данных 13.1.3. Статический Data Mining и Data Mining в реальном времени 13.1.4. Применение Data Mining в реальном времени 13.2. Рекомендательные машины 13.2.1. Классификация рекомендательных машин 13.2.2. Подход на основе содержания 13.2.3. Совместное фильтрование 13.2.4. Анализ рыночной корзины и секвенциальный анализ 13.2.5. Усиление обучения и агенты 13.3. Инструменты Data Mining в реальном времени 13.3.1. Инструмент Amazon. com - механизм рекомендаций 13.3.2. Инструмент Prudsys - рекомендательная машина Prudsys 13.3.3. Приложение с открытым кодом - SpamAssassin Выводы Глава 14. Извлечение знаний из Web - Web Mining 14.1. Web Mining 14.1.1. Проблемы анализа информации из Web 14.1.2. Этапы Web Mining 14.1.3. Web Mining и другие интернет-технологии 14.1.4. Категории Web Mining 14.2. Методы извлечения Web-контента 14.2.1. Извлечение Web-контента в процессе информационного поиска 14.2.2. Извлечение Web-контента для формирования баз данных 14.3. Извлечение Web-структур 14.3.1. Представление Web-структур 14.3.2. Оценка важности Web-структур 14.3.3. Поиск Web-документов с учетом гиперссылок 14.3.3. Кластеризация Web-структур 14.4. Исследование использования Web-ресурсов 14.4.1. Исследуемая информация 14.4.2. Этап препроцессинга 14.4.3. Этап извлечения шаблонов 14.4.4. Этап анализа шаблонов и их применение Выводы Глава 15. Средства анализа процессов - Process Mining 15.1. Автоматизация выполнения бизнес-процессов 15.1.1. Бизнес-процессы 15.1.2. Формализация бизнес-процессов 15.1.3. Workflow-системы 15.1.4. Сервисно-ориентированная архитектура 15.1.5. Проектирование бизнес-процессов 15.2. Анализ процессов 15.2.1. Технология Process Mining 15.2.2. Анализ протоколов 15.2.3. Стандарт записи протоколов MXML 15.2.4. Задачи Process Mining 15.2.5. Проблемы анализа протоколов 15.3. Методы Process Mining 15.3.1. Первые вероятностные методы Process Mining 15.3.2. Метод построения дизъюнктивной Workflow-схемы 15.3.3. α - алгоритм 15.3.4. Методы на основе генетических алгоритмов 15.4. Библиотека алгоритмов Process Mining - ProM 15.4.1. Архитектура ProM 15.4.2. ProM Import Framework Выводы Приложения Приложение 1. Нейронечеткие системы П1.1. Способы интеграции нечетких и нейронных систем П1.2. Нечеткие нейроны П1.3. Обучение методами спуска П1.4. Нечеткие схемы рассуждений П1.5. Настройка нечетких параметров управления с помощью нейронных сетей П1.6. Нейронечеткие классификаторы Приложение 2. Особенности и эффективность генетических алгоритмов П2.1. Методы оптимизации комбинаторных задач различной степени сложности П2.2. Сущность и классификация эволюционных алгоритмов П2.2.1. Базовый генетический алгоритм П2.2.2. Последовательные модификации базового генетического алгоритма П2.2.3. Параллельные модификации базового генетического алгоритма П2.3. Классификация генетических алгоритмов П2.4. Особенности генетических алгоритмов, предпосылки для адаптации П2.5. Классификация адаптивных ГА П2.5.1. Основа адаптации П2.5.2. Область адаптации П2.5.3. Основа управления адаптацией П2.6. Двунаправленная интеграция ГА и нечетких алгоритмов продукционного типа Приложение 3. Описание прилагаемого компакт-диска Список литературы Предметный указатель