Любое исследование состоит в наблюдении за свойствами объектов в целях выяснения и оценивания значимых отношений и взаимосвязей между показателями этих свойств.
Видео: 8.а. Основы социологии Часть 1
Предметная область включает в себя объекты, которые различаются по свойствам и определённым образом находятся в некоторых отношениях и взаимосвязаны между собой. Решение задач в области программирования начинается с исследования предметной области.
Предметная область - это часть действительного мира, которая бесконечна и содержит как значимые, так и несущественные данные. Исследователю надо уметь выделять их существенную часть. Например, решая задачу о выдаче кредита, значимыми будут считаться все данные о частной жизни клиента (есть ли работа у супруга, воспитывает ли клиент несовершеннолетних детей, образование клиента и т.д.). А для того чтобы решить другую задачу, связанную с банковской деятельностью, такие данные будут совершенно не существенны. Значимость данных зависит от того, что мы выбираем в качестве предметной области.
В процессе исследования необходимо создать модель предметной области. Знания из разных источников должны быть формализованы. Предметная область формализуется при помощи каких-либо средств. Средства могут быть самые различные. Это может быть текстовое описание предметной области или специализированная графическая нотация. С помощью модели предметной области описываются процессы, которые происходят в ней, а также изучаются данные этой области исследования.
Постановка задачи состоит также из описания статического и динамического поведения объектов, которые мы исследуем. Описание статического поведения предполагает характеристику объектов и их свойств. При описании динамического поведения характеризуются причины поведения объектов.
Видео: Введение в аналитику больших массивов данных
Динамическое поведение объектов часто описывают вместе со статическим поведением.
Иногда анализ предметной области и постановка задачи объединяются в 1 этап.
На этапе определения и анализа требований к данным производится моделирование данных, необходимых для осуществления Data Mining. Для этого исследуются вопросы распределения пользователей- аналитические характеристики системы- вопросы доступа к данным, необходимым для анализа.
Предметная область анализируется проще и эффективней, когда в организации имеется хранилище данных. Однако далеко не на всех предприятиях имеются такие хранилища данных. В таком случае источником для исходных данных являются оперативные базы данных, справочные и архивные материалы, то есть данные из уже существующих ИС (информационных систем).
Ещё может потребоваться информация из ИС руководителей, внешних и внутренних источников, различных документов на бумажных носителях, а также знания специалистов и/или результаты опросов.
Необходимо также знать, что в процессе подготовки данных разработчики программ должны описать как можно больше факторов, которые влияют на процесс. Здесь может осуществляться кодирование некоторых данных. Например, одна из характеристик клиента - уровень его дохода, который может быть определён как: очень низкий, низкий, средний, высокий, очень высокий. В этом случае надо определить градации уровня дохода.
При определении нужного количества данных необходимо учитывать упорядоченность данных.
В том случае, когда они упорядочены, необходимо узнать, включена ли в такой набор данных сезонная/циклическая компонента. Когда же они не упорядочены, т.е. набор событий из базы данных не связан по временной шкале, то по ходу сбора надо соблюдать нижеследующие правила:
1) малое число записей в базе данных может быть причиной создания неадекватной модели-
2) точность модели может быть улучшена с увеличением числа данных-
3) устаревшие данные исключают из набора-
4) алгоритмы, которые используется в целях создания модели с применением очень больших баз данных, должны иметь возможность масштабирования.