В обозревателе решений щелкните правой кнопкой мыши элемент «Представления источников данных (Data Source Views)» и выберите команду «Создать представление источника данных (New Data Source View)».
На странице «Вас приветствует мастер представлений источников данных (Welcome to the Data Source View Wizard)» нажмите кнопку «Далее (Next)».
На странице «Выбор источника данных (Select a Data Source) в меню «Реляционные источники данных (Relational data sources)» выберите источник данных «AdventureWorks DW2008», созданный ранее. Нажмите кнопку Далее (Next)».
На странице «Выбор таблиц и представлений (Select Tables and Views)» выберите следующие объекты, а затем щелкните стрелку вправо, чтобы включить их в новое представление источника данных.
· vTargetMail (dbo) - представление исторических данных о клиентах, в прошлом купивших велосипеды;
· vAssocSeqLineItems (dbo);
· vAssocSeqOrders (dbo);
· vTimeSeries (dbo).
Нажмите кнопку «Далее (Next)».
На странице «Завершение работы мастера (Completing the Wizard)» по умолчанию представление источника данных имеет имя Adventure Works DW2008. Нажмите кнопку «Готово (Finish)».
Создание новой связи между таблицами
В конструкторе представлений источников данных расположите две таблицы горизонтально друг напротив друга, поместив таблицу vAssocSeqLineItems слева, а vAssocSeqOrders - справа.
Выделите столбец «OrderNumber» в таблице vAssocSeqLineItems.
Перетащите этот столбец на столбец «OrderNumber» таблицы vAssocSeqOrders.
Обязательно перетащите столбец OrderNumber из вложенной таблицы vAssocSeqLineItems, которая представляет сторону соединения «многие», в таблицу вариантов vAssocSeqOrders, которая представляет сторону соединения «один».
Между таблицами vAssocSeqLineItems и vAssocSeqOrders создана новая связь многие к одному. Если соединение таблиц выполнено правильно, должно появиться следующее представление источника данных (рис. 15):
Рис. 15 Настройка связей
Построение структуры прямой почтовой рассылки
Отдел маркетинга компании Adventure Works Cycles получил задачу увеличить объемы продаж за счет привлечения индивидуальных заказчиков с помощью прямой почтовой рассылки. База данных компании AdventureWorks DW2008 содержит список бывших и потенциальных заказчиков. Исследуя особенности бывших покупателей велосипедов, компания рассчитывает разработать закономерность, которую потом можно применять для потенциальных заказчиков. В компании рассчитывают использовать разработанные закономерности для определения того, какие заказчики наиболее склонны к приобретению велосипедов у компании Adventure Works Cycles.
Будет использоваться «Мастер интеллектуального анализа данных» для создания структуры прямой почтовой рассылки. В результате выполнения задач этого занятия будет получена структура интеллектуального анализа данных с одной моделью.
Создание структуры интеллектуального анализа данных для сценария прямой почтовой рассылки
В обозревателе решений (solution explorer) щелкните правой кнопкой мыши узел «Структуры интеллектуального анализа данных (Mining Structures)» и выберите команду «Создать структуру интеллектуального анализа данных (New Mining Structure)», чтобы запустить мастер интеллектуального анализа данных.
На странице «Мастер интеллектуального анализа данных (Welcome to the Data Mining Wizard)» нажмите кнопку «Далее (Next)».
Убедитесь, что на странице «Выбор метода определения (Select the Definition Method)» выбран параметр «На основе существующей реляционной базы данных или хранилища данных (From existing relational database or data warehouse)», затем нажмите кнопку «Далее (Next)».
На странице «Создание структуры интеллектуального анализа данных (Create the Data Mining Structure)» в поле «Какой метод интеллектуального анализа данных использовать? (Which data mining technique do you want to use?)» выберите «Алгоритм дерева принятия решений Майкрософт (Microsoft Decision Trees)».
Если появится предупреждение о том, что алгоритмов интеллектуального анализа данных не обнаружено, это может означать, что свойства проекта настроены неправильно. Это предупреждение выдается, только когда проект пытается получить список алгоритмов интеллектуального анализа данных с сервера служб Analysis Services и не находит сервера. По умолчанию служба BI Development Studio использует в качестве сервера localhost. Если используется другой экземпляр или именованный экземпляр, нужно изменить свойства проекта.
Нажмите кнопку «Далее (Next)».
На странице «Выбор представления источников данных (Select Data Source View)» в области «Доступные представления источника данных (available data source views)» выберите Adventure Works DW. Нажмите кнопку Обзор (Browse)», чтобы просмотреть таблицы в представлении источника данных, а затем нажмите кнопку «Закрыть (Close)», чтобы вернуться в окно мастера.
Нажмите кнопку «Далее (Next)» .
На странице «Определение типов таблиц (Specify Table Types)» установите флажок в столбце «Вариант (Case)» рядом с таблицей vTargetMail, чтобы ее использовать в качестве таблицы вариантов, и нажмите кнопку «Далее (Next)». Таблица ProspectiveBuyer будет использоваться позже в целях проверки, поэтому на данном этапе ее не нужно учитывать.
На странице «Определение обучающих данных (Specify the Training Data)» для своей модели необходимо определить по крайней мере один прогнозируемый столбец, один ключевой столбец и один входной столбец. Установите флажок в столбце «Прогнозируемый (Input) и «Прогнозируемый (Suggest)» расположенном в строке «BikeBuyer».
Обратите внимание на предупреждение в нижней части окна. На следующую страницу можно будет перейти только после выбора хотя бы одного столбца «Входной и одного столбца «Прогнозируемый».
Нажмите кнопку Предложить (Suggest)», чтобы открыть диалоговое окно «Предложение связанных столбцов (Suggest Related Columns)».
Кнопка «Предложить (Suggest)» доступна, если был выбран по крайней мере один прогнозируемый атрибут. В диалоговом окне «Предложение связанных столбцов (Suggest Related Columns)» перечисляются столбцы, которые наиболее тесно связаны с прогнозируемым столбцом, а также перечисляются атрибуты в порядке их корреляции с прогнозируемым атрибутом. Столбцы со значительной корреляцией (степень достоверности превышает 95 %) автоматически выделены как включаемые в модель.
Просмотрите предложения и нажмите кнопку «Отмена (Cancel)», чтобы их не обрабатывать.
Если нажать кнопку «ОК», все предложения в списке будут помечены в мастере как входные столбцы. Если нужны не все предложения, значения придется изменять вручную.
Установите флажок в столбце «Ключевой (Key)», расположенном в строке «CustomerKey». Если для таблицы с входными данными из представления источника данных указан ключ, мастер интеллектуального анализа данных автоматически выберет этот столбец в качестве ключа для модели.
Установите флажки в столбце «Входной (Input)» в перечисленных ниже строках. Чтобы установить флажки в нескольких столбцах, можно выделить диапазон ячеек и удерживать нажатой клавишу CTRL при установке флажка.
· Age;
· CommuteDistance;
· EnglishEducation;
· EnglishOccupation;
· FirstName;
· Gender;
· GeographyKey;
· HouseOwnerFlag;
· LastName;
· MaritalStatus;
· NumberCarsOwned;
· NumberChildrenAtHome;
· Region;
· TotalChildren;
· YearlyIncome;
Нажмите кнопку «Далее (Next)».
На странице «Задание содержимого и типа данных столбцов (Specify Columns' Content and Data Type) » нажмите кнопку «Определить (Detect) », чтобы запустить алгоритм определения типов данных и содержимого по умолчанию для каждого столбца.
Просмотрите записи в столбцах «Тип содержимого (Content Type)» и «Тип данных (Data Type)». При необходимости измените их, чтобы они совпадали с параметрами, перечисленными в следующей таблице.
Обычно мастер распознает числа и присваивает им соответствующий числовой тип данных, но часто бывает нужно обрабатывать числа как строки. Например, поле «GeographyKey нужно обрабатывать как текст, поскольку над этим идентификатором математические операции не производятся.
Таблица 2
Столбец
Тип содержимого
Тип данных
Age
Непрерывный
Long
Bike Buyer
Дискретный
Long
Commute Distance
Дискретный
Text
CustomerKey
Ключ
Long
DateLastPurchase
Непрерывный
Date
Email Address
Дискретный
Text
English Education
Дискретный
Text
English Occupation
Дискретный
Text
FirstName
Дискретный
Text
Gender
Дискретный
Text
Geography Key
Дискретный
Text
House Owner Flag
Дискретный
Text
Last Name
Дискретный
Text
Marital Status
Дискретный
Text
Number Cars Owned
Дискретный
Long
Number Children At Home
Дискретный
Long
Region
Дискретный
Text
Total Children
Дискретный
Long
Yearly Income
Непрерывный
Double
Нажмите кнопку «Далее (Next)».
На странице «Создание проверочного набора (Create testing set)» оставьте для параметра «Процент проверочных данных (Percentage of testing data)» значение по умолчанию, равное 30.
Для параметра «Максимальное количество вариантов в наборе проверочных данных (Maximum number of cases in testing data set)» задайте значение 1000.
Нажмите кнопку «Далее (Next).
На странице «Завершение работы мастера (Completing the Wizard)» в поле «Имя структуры интеллектуального анализа данных (Mining structure name)» введите «Прямая почтовая рассылка (Targeted Mailing)».
В поле «Имя модели интеллектуального анализа данных (Mining model name)» введите «TM_Decision_Tree».