Технологии интеллектуального анализа данных

Тема: Технология Data Mining M ining? Мы живем в веке информации. В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информации в самых различных областях. Трудно переоценить значение данных, которые мы непрерывно собираем в процессе нашей деятельности, в управлении бизнесом или производством, в банковском деле, в решении научных, инженерных и медицинских задач. Деятельность технологии интеллектуального анализа данных предприятия коммерческого, технологии интеллектуального анализа данных, медицинского, научного и т. Мощные компьютерные системы, хранящие и управляющие огромными базами данных, стали неотъемлемым атрибутом жизнедеятельности, как крупных корпораций, так и даже небольших компаний. Без продуктивной переработки потоки сырых данных образуют никому не нужную свалку. Наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать "сырые" данные в технологии интеллектуального анализа данных для принятия важных бизнес решений информацию. В этом и состоит основное предназначение технологий Data Mining. Необходимость автоматизированного интеллектуального анализа данных стала очевидной в первую очередь из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. По мнению исследовательского центра компании GTE только научные институты собирают ежедневно около терабайта новых данных! А ведь академический мир далеко не самый главный поставщик информации. Человеческий ум, даже такой тренированный, как ум профессионального аналитика, просто не в состоянии своевременно анализировать столь огромные информационные потоки. Другой причиной роста популярности Data Mining является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм, он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред. И, наконец, Data Mining дешевле. Оказывается, что выгоднее инвестировать деньги в решения Data Mining, чем постоянно содержать целую армию высоко подготовленных и дорогих профессиональных статистиков. Data Mining вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании. Итак, современная специфика такова, что: · данные имеют неограниченные объем; · данные являются разнородными количественными, качественными, текстовыми ; · результаты должны быть конкретны и понятны; · инструменты для обработки сырых данных должны быть просты в использовании. M технологии интеллектуального анализа данных Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно не справляется с возникшими проблемами. Главная причина — концепция усреднения по выборке, приводящая к операциям над фиктивными величинами типа средней температуры пациентов в больнице, средней высоты дома на улице и т. В основу Data Mining discovery-driven data mining положена концепция шаблонов паттерновотражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде технологии интеллектуального анализа данных значений анализируемых показателей. Примеры заданий на такой поиск при использовании Data Mining приведены в таблице. Примеры формулировок задач при использовании методов OLAP и Data Mining OLAP Data Mining Каковы средние показатели травматизма для курящих и некурящих Встречаются ли точные шаблоны в описаниях людей, технологии интеллектуального анализа данных повышенному травматизму Каковы средние технологии интеллектуального анализа данных телефонных счетов существующих клиентов в сравнении со счетами бывших клиентов отказавшихся от услуг телефонной компании Имеются технологии интеллектуального анализа данных характерные портреты клиентов, которые, по всей вероятности, собираются отказаться от услуг телефонной компании Какова средняя величина ежегодных покупок по украденной и не украденной кредитной карточке Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными картами Сформулируем еще несколько вопросов, на которые способная дать ответ технология Data Mining: · Какие товары предлагать данному покупателю? · Какова вероятность того, что данный сектор потенциальных клиентов отреагирует на рекламную кампанию? · Можно ли выработать оптимальную стратегию игры на бирже? · Можно ли выдать кредит данному клиенту банка? · Какой диагноз поставить данному пациенту? технологии интеллектуального анализа данных Как прогнозировать пиковые нагрузки в телефонных или энергетических сетях? · В чем причины брака в производственной продукции? Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать технологии интеллектуального анализа данных, неожиданные unexpected регулярности в технологии интеллектуального анализа данных, составляющих так называемые скрытые знания hidden knowledge. К обществу пришло понимание того, что сырые данные raw data содержат глубинные пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки. Существует множество определений Data Mining, но в целом они совпадают в выделении 4-х основных признаков. Вот определение, которое дал Григорий Пиатецкий-Шапиро Piatetsky- Shapiro, GTE Labs. Нахождение скрытых закономерностей в данных, взаимосвязей между различными переменными в базах данных, моделирование изучение сложных систем на основе истории их поведения - вот предмет и задачи Data Mining. Результаты Data Mining - эмпирические модели, классификационные правила, выделенные кластеры и т. M ining Технологии интеллектуального анализа данных применения Data Mining ничем не ограничены — она везде, где имеются какие-либо данные. Data Mining представляет большую ценность для руководителей и аналитиков в их повседневной действительности. Деловые люди осознали, что с помощью методов Data Mining они могут получить ощутимые преимущества в конкурентной борьбе. Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами. Предприятия розничной торговли сегодня собирают подробную информацию о каждой отдельной технологии интеллектуального анализа данных, используя кредитные карточки с маркой магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно решать с помощью Data Mining в сфере розничной торговли: · Анализ потребительской корзины анализ сходства предназначен для выявления товаров, которые покупатели стремятся приобретать вместе. Знание покупательской корзины необходимо улучшения рекламы, выработки стратегии создания запасов товаров, способов их раскладки в торговых залах. · Исследование временных шаблонов помогает торговым предприятиям принимать решения о создании технологии интеллектуального анализа данных запасов. Оно дает ответы на вопросы типа: «Если сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее всего купит новые батарейки и пленку? » · Создание прогнозирующих моделей дает возможность торговым предприятиям узнавать характер потребностей различных категорий клиентов с определенным поведением, например, покупающих товары известных дизайнеров или посещающих распродажи. Эти знаний нужны для разработки точно направленных, экономичных мероприятий по продвижению товаров. Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами. Достижения технологии Data Mining используются в банковском деле для решения следующих задач: · Выявление мошенничества с кредитными карточками. Путем анализа прошлых транзакций, которые впоследствии оказались мошенническими, банк выявляет стереотипы такого мошенничества. Разбивая клиентов на различные категории, банки делают свою маркетинговую политики более целенаправленной и результативной, предлагая различные виды услуг разным группам клиентов. · Прогнозирование изменений клиентуры. Data Mining помогает банкам строить прогнозные модели ценности своих клиентов и соответствующим образом обслуживать каждую категорию. Привлечение технологии интеллектуального анализа данных, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средств. В области телекоммуникации методы Data Mining помогают компаниям более энергично продвигать свои программы маркетинга и ценообрахования, чтобы удержать существующих клиентов и привлекать новых. Среди типичных мероприятий отметим следующие: · Анализ записей о подробных характеристиках вызовов. Назначение такого анализа — выявление категорий клиентов с похожими стереотипами пользования их услугами и разработка привлекательных наборов цен и услуг. · Выявление лояльности клиентов. Data Mining можно использовать для определения характеристик клиентов, которые один раз воспользовавшись услугами данной компании, с большой долей вероятности останутся ей верными прогноз постоянства клиента. В итоге, средства, выделяемые на маркетинг, можно тратить там, где отдача больше всего. Привлечение и удержание клиентов, прогнозирование финансовых показателей. Страховые компании в течение ряда лет накапливают большие объемы данных. Здесь обширное поле деятельности для методов Data Mining: · Выявление мошенничества. Страховые компании могут снизить уровень мошенничества, отыскивая определенные стереотипы в заявлениях о выплате страхового возмещения, характеризующих взаимоотношения между юристами, технологии интеллектуального анализа данных и заявителями. Путем выявления сочетаний факторов, связанных с технологии интеллектуального анализа данных заявлениями, страховщики могут уменьшить свои потери по обязательствам. Известен случай, когда в США крупная страховая компания обнаружила, что суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышают суммы по заявлениям одиноких людей. Компания отреагировала на это новое знание пересмотром своей общей политики предоставления скидок семейным клиентам. Data Mining может применяться во множестве других областей: · Развитие автомобильной промышленности. При сборке автомобилей производители должны учитывать требования каждого отдельного клиента, поэтому им нужны возможность прогнозирования популярности определенных характеристик и знание того, какие характеристики обычно заказываются вместе. Производителям нужно предсказывать число клиентов, которые подадут гарантийные заявки, и среднюю стоимость заявок. · Поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу клиентов, которые данными поощрительными мерами можно побудить летать больше. Например, одна авиакомпания обнаружила категорию клиентов, которые совершали много полетов на короткие расстояния, не накапливая достаточно миль для вступления в их клубы, поэтому она таким образом изменила правила приема в клуб, чтобы поощрять число полетов так же, как и мили. · Прогноз популярности определенных характеристик товаров и услуг. · Рыночная сегментация, идентификация целевых групп, построение профиля клиента Database marketers · Детекция подлогов, формирование "типичного поведения" обладателя кредитки, анализ достоверности клиентских счетов ,cross-selling программы кредитные компании. · Выработка оптимальной торговой стратегии, контроль рисков биржевые трейдеры. · Детекция подлогов, прогнозирование поступлений в бюджет налоговые службы и аудиторы. Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства. Известно много экспертных систем для постановки медицинских диагнозов. Они построены на основе правил, описывающих сочетания различных симптомов различных заболеваний. С помощью таких правил узнают не только, чем болен пациент, но и как нужно его лечить. Правила помогают выбирать средства медикаментозного воздействия, определять показания противопоказанияориентироваться в лечебных процедурах, создавать условия наиболее эффективного лечения, предсказывать исходы назначенного курса лечения и т. Технологии Data Mining позволяют обнаруживать в медицинских данных шаблоны, составляющие основу технологии интеллектуального анализа данных правил. Предсказание результатов будущего тестирования препаратов, программы испытания. Пожалуй, наиболее остро и вместе с тем четко задача обнаружения закономерностей в экспериментальных данных технологии интеллектуального анализа данных в молекулярной генетике и генной инженерии. Здесь она формулируется как определение так называемых маркеров, под которыми понимаются генетические коды, контролирующие те или иные фенотипические признаки живого технологии интеллектуального анализа данных. Такие коды могут содержать сотни, тысячи и более связанных элементов. На развитие генетических исследований выделяются большие средства. В последнее время в данной области возник особый интерес к применению технологии интеллектуального анализа данных Data Mining. Известно несколько крупных фирм, специализирующихся на применении Data Mining для расшифровки генома человека и растений. Методы Data Mining находя широкое применение в прикладной химии органической и неорганической. Здесь нередко возникает вопрос о выяснении особенностей химического строения технологии интеллектуального анализа данных или иных соединений, определяющих их основные свойства. Особенно актуальна такая задачи при анализе сложных химических соединений, описание которых включает сотни и тысячи структурных элементов их связей. Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса. Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач. Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: · ассоциация; · последовательность; · классификация; · кластеризация; · прогнозирование. Ассоциация — имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и кока-колу, а при наличии скидки за такой комплект колу приобретают в 85% случаев. Располагая сведениями о такой ассоциации, менеджерам легко оценить, насколько действенна предлагаемая скидка. Последовательность — имеет место в том случае, если существует цепочка связанных во времени событий. Так, например, после покупки дома в 45% случаев в течение месяца приобретается кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником. Классификация — выявление признаков, характеризующих группу, к которой принадлежит тот или иной объект, посредством обучения на уже классифицированных технологии интеллектуального анализа данных, формулирование набора правил для каждой технологии интеллектуального анализа данных Кластеризация — отличается от классификации тем, что сами группы заранее не заданы. Средства Data Mining самостоятельно выявляют различные однородные группы данных. Прогнозирование - создание нахождение шаблонов, адекватно отражающих динамику поведения целевых показателей по временным рядам базы данных. С их помощью можно предсказать поведение системы в будущем. Data Mining является мультидисциплинарной областью, возникшей и развивающейся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и др. Отсюда обилие методов и алгоритмов, реализованных в различных действующих системах Data Mining. Многие их таких систем интегрируют в себе сразу несколько подходов. Ниже превродится классификация указанных ключевых компонентов. Системы рассуждений на основе аналогичных случаев. Системы для визуализации многомерных данных. Наиболее развиты системы в области исследования финансового рынка, так называемый "технический анализ": прогноз динамики цен, выбор оптимальной структуры инвестиционного портфеля, основанный на различных эмпирических моделях динамики рынка. Эти методы максимально учитывают специфику приложения профессиональный язык, индексы и пр. Оказались полезными главным образом для проверки заранее сформулированных гипотез verification-driven data mining и для "грубого" разведочного анализа, составляющего основу оперативной аналитической обработки данных online analytical, OLAP. Большинство методов опираются на усредненные характеристики выборки, которые при исследовании реальных сложных жизненных феноменов часто являются фиктивными величинами. Хорошо описаны пакеты STATGRAPHICS, STATISTICA, STADIA. Здесь для предсказания значения целевого показателя используются наборы входных переменных, математических функций активации и весовых коэффициентов входных параметров. Выполняется итеративный обучающий цикл, нейронная сеть модифицирует весовые коэффициенты до тех пор, пока предсказываемый выходной параметр соответствует действительному значению. После обучения нейронная сеть становится моделью, которую можно применить к новым данным с целью прогнозирования. Основным недостатком в этом случае является необходимость иметь очень большой объем обучающей выборки. Кроме того, любая нейронная сеть представляет собой "черный ящик" и знания в виде нескольких сотен весовых коэффициентов, полученных технологии интеллектуального анализа данных ее помощью, не поддаются анализу интерпретации. Примеры - BrainMaker, NeuroShell, OWL. Системы рассуждений на основе аналогичных случаев. Вывод путем сопоставления Memory-based Reasoning, MBR или вывод, основанный на прецедентах Case-based Reasoning, CBR. Эти алгоритмы основаны на обнаружении некоторых аналогий в прошлом, наиболее близких к текущей ситуации, с тем чтобы оценить неизвестное значение или предсказать возможные результаты последствия. Эти методы называют еще методом "ближайшего соседа". Технологии интеллектуального анализа данных выборе решения они основываются на всем массиве доступных исторических данных, поэтому невозможно сказать, на технологии интеллектуального анализа данных каких конкретно факторов строятся ответы. Примеры: KATE tools ФранцияPattern Recognition Workbench СШАКОРА Россия. Деревья решений и Алгоритмы классификации. Создается иерархическая структура классифицирующих правил типа "ЕСЛИ. Для принятия решения, к какому классу отнести некоторый объект или ситуацию, требуется ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Сначала выполняется разбивка по наиболее важным переменным. Ветвь дерева можно представить как условную часть правила. Наиболее часто встречающимися примерами являются алгоритмы классификационных и регрессионных деревьев Classification and regression trees, CART либо хи-квадрат индукция Chi-squared Automatic Технологии интеллектуального анализа данных, CHAID. Недостаток: деревья решений принципиально не способны находить "лучшие" наиболее полные и точные правила технологии интеллектуального анализа данных данных. Искомая зависимость технологии интеллектуального анализа данных переменной от других переменных моделируется несколькими вариантами алгоритмов, из которых отбирается тот, который воспроизводит зависимость более точно. Программы, совершенствуясь, конкурируют друг с другом как живые организмы при естественном отборе в борьбе за выживаемость. Примером такой системы является PolyAnalyst. Найденные зависимости представляются пользователю в виде математической формулы или таблицы. Иногда зависимость ищется в виде функции какого-то определенного вида, например в виде полинома. Так работает метод группового учета аргументов МГУА. Исходно это было мощное средство решения разнообразных комбинаторных задач и задач оптимизации. Построение алгоритма начинается с кодировки логических закономерностей в базе данных в виде так называемых, хромосом. Популяция таких хромосом обрабатывается при последовательных итерациях с проведением отбора, операции изменчивости мутациискрещивания, генетической композиции, как это происходит в природе с настоящими генами. Генетические алгоритмы в первую очередь применяются для оптимизации топологии нейронных сетей и весов. Однако, их можно использовать и самостоятельно, для моделирования. Бонгардом для поиска логических закономерностей в данных. Выявляют причинно-следственные связи и определяют вероятности или коэффициенты достоверности, позволяя делать соответствующие выводы. Их можно использовать для прогнозирования или оценки неизвестных параметров значений. На основе частоты встречаемости логических закономерностей делается вывод о полезности какой-либо их комбинации конъюнкции для установления ассоциации в данных, для классификации, прогнозирования и т. Недостатки: максимальная длина комбинации в if-then-правиле равна 6; поиск простых логических событий в начале работы производится эвристически. Тем не менее технологии интеллектуального анализа данных система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы. Системы для визуализации многомерных данных. Средства графического отображения данных поддерживаются всеми системами Data Mining. Но некоторые предназначены исключительно для этой цели например, Data Miner 3D. Их главной характеристикой является дружелюбный пользовательский интерфейс с удобными средствами масштабирования и вращения изображений. Подразделяет гетерогенные данные на технологии интеллектуального анализа данных или полугомогенные группы. Метод позволяет классифицировать наблюдения по ряду общих признаков. Кластеризация расширяет возможности прогнозирования. Конечно, для того, чтобы разобраться в достоинствах и недостатках приведенных здесь методов Data Mining, не достаточно столь краткого описания. Требуется гораздо больше информации и времени, чтобы сориентироваться в столь разнообразных и не всегда простых методах. Необходимы консультации профессионалов в области Data Mining, рекомендующих наилучший подход в той или иной ситуации. Но затраченные усилия не пропадут даром, т. Благодаря быстрому прогрессу вычислительной техники и технологии интеллектуального анализа данных программ с дружественным интерфейсом они становятся все более доступными для пользователя. Нужно грамотно использовать разные методы Data Mining при решении разных задач. Технологии интеллектуального анализа данных технологии Data Mining ведутся активные дискуссии. Обширен спектр мнений по поводу этих технологий — от восторженных надежд на ожидаемые успехи до полного негативизма и отношения к ним как к преходящей моде. По-видимому, полезно сделать обзор указанных мнений и попытаться объективно разобраться, технологии интеллектуального анализа данных здесь относится к областям фантазии и реальности. Интеллектуальный анализ данных позволяет получить неожиданные результаты, на основании которых стратегия принятия решений в той или иной области может быть кардинально изменена. Как правило, применение интеллектуального анализа данных позволяет лишь усовершенствовать действующую и приносящую успех организационную схему. Это происходит в основном технологии интеллектуального анализа данных счет небольших и постепенных изменений, а не революционных преобразований. Вместе с тем, применение современной технологии интеллектуального анализа данных способно приводить и к технологии интеллектуального анализа данных переменам. Небольшие достижения, накапливаясь в течение технологии интеллектуального анализа данных периода, могут вылиться в значительный отрыв от конкурентов. Кроме того, интеллектуальный анализ данных позволяет обнаружить принципиально новые факты, радикально меняющие известные взгляды. Технологии интеллектуального анализа данных настолько совершенны, что могут компенсировать недостаток знаний в предметной области или недостаток опыта по части технологии интеллектуального анализа данных моделей их анализа. Ни одна методика анализа не может заменить знание специалиста в своей области. Напротив, внедрение технологий интеллектуального анализа данных делает образование и опыт еще более важными факторами, чем раньше. В то время как опытным сотрудникам достаточно освоить одну-две новые аналитические методики, чтобы остаться на уровне требований дня и продолжить вносить свой вклад в повышение конкурентоспособности своего дела, от специалистов, не владеющим ничем, кроме техники анализа, нет абсолютно никакой технологии интеллектуального анализа данных. Чем меньше имеет знаний в предметной области специалист по интеллектуальному технологии интеллектуального анализа данных, тем более он нуждается в тесном взаимодействии с людьми, которые такими знаниями обладают. В свою очередь, недостаток навыков и опыта в моделировании и применении соответствующих средств у экспертов в предметной области увеличивает их зависимость от поддержки специалистов по интеллектуальному анализу данных. Например, предположим, что рассматривая возможности повышения доходности вложений своего технологии интеллектуального анализа данных, эксперт-финансист обращается к специалисту по интеллектуальному анализу для обработки большой и сложной базы данных, содержащей информацию о деятельности других клиентов. Пусть этот специалист выявляет определенную связь некоторых переменных с прибыльностью инвестирования. Но только финансист способен сказать, в каких пределах допускается законом изменение этих переменных. Средства интеллектуальной обработки данных автоматически обнаруживают различные закономерности. Многие средства такой обработки действительно позволяют автоматически выявлять закономерности в исследуемых данных. Технологии интеллектуального анализа данных не менее, ставить конкретные цели им необходимо. Например, если подать на вход список адресов клиентов и попытаться получить на выходе набор «профилей» покупателей, применение которых позволило бы повысить эффективность адресной рекламы, особенно на многое рассчитывать не стоит. Технологии интеллектуального анализа данных постановке целей важна конкретность. Без такой конкретности информация бывает перегружена мелкими, ненужными, отвлекающими и даже вредными деталями. Интеллектуальный анализ данных может с пользой применяться только в определенных областях. Практически любой процесс — от фармакологического производства до обслуживания клиентов — можно изучить, понять, улучшить с помощью методов интеллектуального анализа. Технологии интеллектуального анализа данных могут быть такие разнообразные области: управление производственными процессами, кадровая работа, менеджмент предприятий общепита, медицина, социология, геология и др. Интеллектуальный анализ данных станет полезен везде, где собраны данные. Конечно, в некоторых случаях расчет окупаемости может показать, что «игра не стоит свеч». Методы, используемые в средствах интеллектуального анализа данных, качественно отличаются от тех, которые применяются при традиционном построении количественных моделей. Все методы, используемые в настоящее время для интеллектуального анализа данных, являются логическим развитием и обобщением аналитических технологии интеллектуального анализа данных, известных уже на протяжении десятилетий. Все они предназначены для построения моделей зависимости между набором определяющих переменных и результатом. Новизна интеллектуального анализ информации заключается в расширении сферы применения указанных методов, которое стало возможным благодаря возросшей доступности данных и удешевлению вычислений. Кроме того, из-за слабой связи между деловым миром и специалистами по анализу данных, большинство из которых принадлежит к академической сфере, до недавнего времени не существовало программных реализаций указанных методик с дружественным интерфейсом пользователя. Наблюдающийся в последнее время рост интереса к средствам интеллектуального анализа данных объясняется отчасти именно усовершенствованиями в области интерфейса, которые сделали их доступными для использования различными прикладными специалистами. Распространение технологии интеллектуального анализа данных вычислительных методов интеллектуального анализа данных представляет собой значительный шаг вперед, однако не теряют своей ценности технологии интеллектуального анализа данных применявшиеся ранее средства. Разнообразные регрессионные методы, дискриминантный анализ и даже простейшие графики также позволяют выявлять скрытые зависимости. Считается, что никакой один отдельно взятый метод не обеспечивает решение всех или хотя бы даже большинства задач. Чтобы преуспеть в интеллектуальном анализе данных, необходимо запастись достаточно широким набором инструментов, как старых, так и новых. Интеллектуальный анализ данных представляет собой очень сложную процедуру. Алгоритмы для интеллектуального анализа данных могут быть сложными, однако их применение, благодаря появлению новых технологии интеллектуального анализа данных средств, значительно упростилось. При этом часто не требуется обращаться к таким сложным алгоритмам, а достаточно использования относительно простых аналитических методов, табличных и графических представлений. Своей сложностью интеллектуальный анализ данных в значительной мере обязан тем же самым трудностям с организацией данных, которые характерны для любых методик моделирования. Это, в частности, работы по подготовке данных, такие как отбор переменных для включения в расчет и выбор способа их кодирования, а также интерпретация результата и принятия решения о путях его использования. Применять интеллектуальный анализ имеет смысл только к базам данных больших объемов. Действительно, некоторые из методов интеллектуального анализа данных были разработаны специально для применения к очень большим наборам данных, а многие использующие их приложения предназначены для обработки крупных массивов информации. Вместе с тем, технологии интеллектуального анализа данных сведения можно извлекать из наборов данных средних или малых размеров. Вообще, проблема необходимого и достаточного объема данных и по сей день остается открытой. Она решается отдельно для каждого конкретного случая. Интеллектуальный анализ данных дает больший эффект, чем больше данных в него вовлечено, поэтому следует использовать в каждом случае все технологии интеллектуального анализа данных данные. Дополнительные данные приносят пользу, только если содержат новые сведения о рассматриваемых показателях или целях. В иных случаях их привлечение может оказаться не только бесполезным, но и вредным. Например, это происходит, если в данных содержится один из важных элементов информации, но нет других связанных с ним или не отражены взаимосвязи между такими элементами. Введение в процессе анализа технологии интеллектуального анализа данных, содержащих малую часть всей информации, может привести к снижению ценности получаемых решений, «зашумлять» информацию. Кроме того, эффективность применения средств интеллектуального анализа снижается в случае учета иррелевантной технологии интеллектуального анализа данных или дублирующих друг друга измерений одной и той же величины. Например, при использовании регрессионного анализа, если включить в число обрабатываемых признаков одновременно и возраст, и дату рождения, средство интеллектуального анализа обнаружит равную релевантность обоих факторов и понизит их вес. Построение рабочей модели на основе выборки из базы неэффективно, так как информация, содержащаяся в базе данных, но не охваченная выборкой, оказывается потерянной для анализа. Целью большинства усовершенствований методов формирования выборок является увеличение информационной эффективности по отношению к затраченным усилиям. Любой набор данных уже представляет собой некую выборку из более мощной совокупности. Иногда просто не бывает иного выхода, как только обратиться к выборке. В некоторых случаях сбор полных данных оказывается невозможным. Но это ни в коей мере не снижает объективности грамотно проведенного технологии интеллектуального анализа данных. В действительности даже относительно небольшая, но правильно технологии интеллектуального анализа данных случайная выборка может дать великолепные результаты. В выборах президента США принимают участие более 60 млн технологии интеллектуального анализа данных, имеющих право голоса, но последний предвыборный опрос, охватывающий две тысячных процента этого числа голосующих, редко дает ошибку технологии интеллектуального анализа данных более 2%. Даже располагая базой данных обо всех 60 млн граждан с сотнями измерений по каждому их них, получить лучшую модель для предсказания исхода выборов было бы вряд ли возможно. И в тех случаях, кода построение модели на основе полной БД вполне реально, часто бывает больше пользы от анализа нескольких моделей, основанных на выборках. Интеллектуальный анализ данных — это еще одно веяние моды, которое уйдет так же скоро, как и пришло. Название средств интеллектуального анализа данных может еще не раз измениться, но они сами навсегда останутся в числе важнейших инструментов. Внедрение методов интеллектуального анализа данных — очередной этап процесса, развивающегося с начала XX века. Бурный рост вычислительной мощности компьютеров в сочетании с появлением дешевых электронных методов сбора больших объемов данных логично вывели нас на этот этап. Игнорировать интеллектуальный анализ данных невозможно. Применяемые для него методы технологии интеллектуального анализа данных, а преимущества, открываемые в результате выявления новых знаний, — огромны. Предприятия, руководствующиеся в своих действиях в технологии интеллектуального анализа данных области «мифологией», окажутся в серьезном проигрыше по сравнению с организациями, использующими точно просчитанный рациональный подход, опирающийся на реальные факты. Принятие решения об использовании результатов. M ining Индустриальные системы В настоящее время большинство ведущих в мире производителей программного обеспечения предлагает свои продукты и решения в области Data Mining. Как правило - это масштабируемые системы, в которых реализованы технологии интеллектуального анализа данных математические алгоритмы анализа данных. Вот несколько примеров таких систем: § PolyAnalyst Мегапьютер Интеллидженс ; технологии интеллектуального анализа данных Intelligent Miner IBM ; § Interprise Miner SAS ; § Clementine Integral Solutions ; § MineSet Silicon Graphics ; § Knowledge Studio Angoss Software. Предметно-ориентированные аналитические системы Эти системы решают узкий класс специализированных задач. Хорошим примером являются программы технического анализа финансовых рынков: § MetaStock Equis International, USA ; § SuperCharts Omega Research, USA ; § Candlestick Forecaster IPTC, USA ; § Wall Street Money Market Arts, USA. Статистические пакеты Это мощные математические технологии интеллектуального анализа данных, предназначенные для статистической обработки данных любой природы. Они технологии интеллектуального анализа данных многочисленные инструменты статистического анализа, имеют развитые графические средства. Примеры систем : § SAS SAS Institute, USA ; § SPSS SPSS, USA ; § Statgraphics Statistical Graphics, USA. Нейроннoсетевые пакеты Это широкий класс разнообразных систем, представляющих собой иерархические сетевые структуры, в узлах которых находятся так технологии интеллектуального анализа данных нейроны. Сети тренируются на примерах, и во многих случаях дают хорошие результаты предсказаний. Основным недостатком нейронных сетей являются трудности в интерпретации результатов. Тренированная нейронная сеть представляет собой "умный черный ящик", работу которого невозможно понять и контролировать. Примеры нейронно-сетевых пакетов: § BrainMaker CSS, USA ; § NeuroShell Ward Systems Group, USA ; § OWL Hyperlogic, USA. Пакеты, реализующие алгоритмы "Decision trees" Этот метод используется только для решения задач классификации. Это является его серьезным ограничением. Результатом работы метода является иерархическая древовидная структура классификационных правил типа "IF. Достоинством метода является естественная способность классификации на множество классов. Примеры систем : § C5.