Мои Конспекты
Главная | Обратная связь

...

Автомобили
Астрономия
Биология
География
Дом и сад
Другие языки
Другое
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Металлургия
Механика
Образование
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Туризм
Физика
Философия
Финансы
Химия
Черчение
Экология
Экономика
Электроника

Поиск переменных, ответственных за мультиколлинеарность





Помощь в ✍️ написании работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Через коэффициенты множественной детерминации (R2) можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов (R2 x1/x2,x3...xm ;R2 x2/x1,x3...xm и т.п.) можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.

В нашем примере R2 x3/x2,x1= 0,601646; R2 x1/x2,x3= 0,509266; R2 x2/x3,x1= 0,357645. Следовательно наибольшая ответственность за мультиколлинеарность лежит на 3-ем факторе (количестве конкурентов), наименьшая – на 2-ом факторе (расстоянии от центра).

Подходы преодоления сильной межфакторной корреляции:

1) Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов.

2) Использование априорной информации: пусть имеется модель зависимости потребления Y от дохода X1. Решено ввести еще один фактор - благосостояние X2. Очевидно, что между Х1 и Х2 существует прямая связь. Предположим априори, что b2=b1*0,1, т.е. изменение потребления относительно благосостояния есть 0,1 изменения потребления относительно дохода. Тогда получаем: Y’=a+b1*X3, где X3’=X1+0,1*X2. Априорная информация может быть получена по результатам предшествующих эмпирических исследований или концепций экономической теории.

3) Увеличение числа наблюдений.

4) Преобразование исходной информации: взять отклонения переменных от их средних значений: Yi-Ycp; X1i-X1cp; ..... (используется в задачах динамики).

5) Переход к совмещенным уравнениям регрессии, т.е. к уравнениям, которые отражают не только влияние факторов, но и их взаимодействие. Так, если y=f(x1,x2,x3,ε), то возможно построение следующего совмещенного уравнения:

Y’=a+b1*X1+b2*X2+b3*X3+b12*X1*X2+b13*X1*X3+b23*X2*X3.

Рассматриваемое уравнение включает взаимодействие первого порядка (взаимодействие 2-ух факторов). Возможно включение в модель и взаимодействия более высокого порядка, если будут доказана их статистическая значимость по F-критерию Фишера, например, b13*X1*X2*X3- взаимодействие 2-ого порядка и т.д. Как правило, совмещенные уравнения регрессии 3-его порядка оказываются статистически незначимыми, совмещенные уравнения регрессии ограничиваются взаимодействиями 1-ого и 2-ого порядков. Но и эти взаимодействия могут оказаться несущественными, поэтому нецелесообразно полное включение в модель взаимодействий всех факторов и всех порядков. Так, если анализ совмещенного уравнения показал значимость только взаимодействия факторов Х1 и Х2, то уравнение будет иметь вид: Y’=a+b1*X1+b2*X2+b3*X3+b13*X1*X3.

Взаимодействие факторов Х1 и Х3 означает, что на разных уровнях фактора Х3 влияние фактора Х3 на Y будет неодинаково, т.е. оно зависит от значений фактора Х3. На рисунке 2) взаимодействие факторов представляется непараллельными линиями связи фактора Х1 с результатом. И, наоборот, параллельные линии влияния фактора Х1 на Y при разных уровнях фактора Х3 означают отсутствие взаимодействия факторов Х1 и Х3.

Y (X3=B1) Y (X3=B1)

(X3=B2) (X3=B2)

 

1) 2)

X1 X1

6) Переход к уравнениям приведенной формы (для систем уравнений). Этот метод рассмотрим позже. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения. Пусть, например, рассматривается двухфакторная модель вида: Y’=a+b1*X1+b2*X2, для которой факторы Х1 и Х2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например, Х2) рассматривается как зависимая переменная. Предположим, известно, что Х2’=A+B*Y+C*X3. Подставляя это уравнение в искомое вместо Х2, получим: Y’=a+b1*X1+b2*( A+B*Y+C*X3) или Y’(1-b2*B)=(a+b2*A)+b1*X1+C*b2*X3. Если (1-b2*B)¹0, то разделив обе части равенства на (1-b2*B), получим уравнение вида: Y’=(a+b2*A)/ (1-b2*B)+b1*X1/(1-b2*B)+C*b2*X3/(1-b2*B), которое представляет собой приведенную форму уравнения для определения результативного признака Y. Это уравнение может быть представлено в виде: Y’=a’+b1’*X1+b2’*X2. К нему для оценки параметров может быть применен метод наименьших квадратов.

 

Выбор формы уравнения регрессии.

Чаще всего для описания множественной зависимости используют линейную и степенную функции.

1) линейная функция Y’= а0+а1*Х1+а2*Х2+..., где а0- среднее значение Y при Х1, Х2... =0; ai- коэффициент условно-чистой регрессии, измеряющий среднее по совокупности отклонение Y от Yср при отклонении Хi от Хср на 1 его ед.изм. (при условии, что все прочие факторы модели закреплены (зафиксированы) на средних уровнях)*.

2) Степенная функция (мульттипликативная модель) Y’=a0*X1a1*X2a2*..., где а0 –значение Y при Х1=Х2=...=1; ai- имеет смысл соответствующего коэффициента эластичности. Преимуществом мультипликативной модели является то, что для получения ненулевого значения Y требуется, чтобы ни один из признаков-факторов не был равен 0.

*) Если не делать предположения о значениях прочих факторов, то это означает, что каждый из них при изменении Хi также может меняться (в среднем на величину rij , где j- номер прочего фактора).

Параметры уравнения множественной регрессии, как и в случае парной регрессии, чаще всего находят методом наименьших квадратов. Затем с помощью корреляционного анализа осуществляют проверку адекватности полученной модели. Адекватную модель экономически интерпретируют.

Линейная множественная регрессия.

Для расчета параметров простейшего уравнения линейной двухфакторной регрессии: Yх1х2‘=а0+а1*Х1+а2*Х2,

где Yх1х2‘ - расчетное (теоретическое) значение зависимой переменной (результативной признак); Х1,Х2 – независимые переменные (факторные признаки); а0,а1,а2 – параметры уравнения,

методом наименьших квадратов построим следующую систему нормальных уравнений:

А0*n+a1åX1+a2åX2=åy

А0*åX1+a1åX12+a2å(X2*Х1)=å(y*Х1)

А0*åX2+a1å(X1*Х2)+a2åX22=å(y*Х2)

Параметры этой системы могут быть найдены, например, методом К.Гаусса, либо методом итераций.

Рассчитаем параметры уравнения регрессии по МНК для нашего примера.

Так как факторы Х1 и Х2 тесно связаны между собой (имеет место мультиколлинеарность), то исключим один из них (Х1) из дальнейшего рассмотрения.

Модель объема продаж (в предположении линейной формы связи между переменными) примет вид: Y=a+а1*X1+а2*X2+ε,

Для оценки ее параметров решим систему нормальных уравнений:

А0*10+ а1*450+а2*112 =110

А0*450+а1*28704+а2*4211=5871

А0*112+а1*4211+а2*1648=1034.

Получим: А0=11,48; а1=0,075; а2=-0,345

Y’=11,48+0,075*X1-0,345*X2.

 

Регрессия в стандартных масштабах.

Если факторные признаки различны по своей сущности и/или имеют различные единицы измерения, то для более точной оценки влияния факторов на результат используют множественные модели регрессии в стандартных масштабах. Модель регрессии в стандартном масштабе предполагает, что все значения исследуемых признаков переводятся в стандарты (стандартизованные значения) по формуле: txij=(xij-xiср)/si, где xij- значение переменной xi в j-ом наблюдении; txij- стандартизованное значение переменной xi в j-ом наблюдении (i=1..m). Аналогично рассчитываются стандартизованные значения результирующей переменной Y: tyj=(yj-yср)/s0.

Начало отсчета каждой стандартизованной переменной совмещается с ее средним значением, а в качестве единицы изменения принимается ее s. Благодаря этому все переменные в стандартизованном масштабе имеют одинаковые средние арифметические значения равные 0 (txср=tyср=0) и одинаковые дисперсии равные 1 (sх2=sу2=1). Кроме того, (ti*tj)ср=rij (!).

Если связь между переменными в естественном масштабе линейная, то изменение начала отсчета и единицы измерения этого свойства не нарушат, так что и стандартизованные переменные будут связаны линейным соотношением:

tycpi=1mbi*txi

b-коэффциенты могут быть оценены с помощью МНК. При этом система нормальных уравнений, из которой определяются b имеет вид:

rx1y=b1+rx1x2b2+…+ rx1xnbn

rx2y= rx2x1b1+b2+…+ rx2xnbn

rxny= rxnx1b1+rxnx2b2+…+bn

b-коэффициенты определяют коэффициенты уравнения в естественных масштабах (ai):Y’=a0+a1*X1+a2*X2+...+am*Xm. Коэффициенты аj (j=1;m) как: аj=bj*sу /sxj

Если в связи участвует один фактор, то bx=÷rxy÷. A0=Ycp-å(ai*Xicp).

Для нашего примера построим уравнение регрессии в стандартных масштабах:

ryx1=0,823375; ryx2=-0,82036; rx1x2= -0,45446 . Тогда система нормальных уравнений примет вид:

0,823375=b1-0,45446*b2

-0,82036=-0,45446 *b1+b2

Отсюда b2=-0,56231; b1=0,567828.

Теперь найдем коэффиценты регрессии в естественных масштабах (a0,а1,а2). sх2=6,273755; sх1=29,076; sу=3,847.

Тогда а1=0,567828*3,847/29,076=0,075; а2=-0,56231*3,847/6,273755=-0,345.

a0= 11-0,075*45+0,345*11,2=11,48.

Полученные значения совпадают с найденными ранее.

По параметрам уравнения регрессии можем оценить силу влияния каждого из факторов на результативный признак Y.

Рассмотрим показатели тесноты связи (в случае линейной множественной регрессии):

1) Коэффициенты регрессии при каждом факторе (ai)- каждый из них измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении факторного признака Хi на единицу, но при условии, что все прочие факторы не изменяются. Для нашего примера коэффициент регрессии а1 позволяет сделать вывод о том, что увеличение численности населения на 1 тыс.человек ведет к увеличению объема продаж на 0,075 тыс.руб при условии, что расстояние от центрального склада до магазинов осталось неизменным. А коэффициент регрессии а2 позволяет сделать вывод, что увеличение расстояния от центрального склада до магазина на 1 км ведет к снижению объема продаж на 0,345 тыс.руб при условии, что численность населения в торговой зоне остается неизменной.

2) Частные коэффициенты эластичности Эхi. Они рассчитываются по формуле: Эхi= (dY/dXi)*(Xi/f(X1,X2,...Xm)) и показывают, на сколько процентов в среднем изменяется У с изменением признака-фактора Хi на один процент при фиксированном положении других факторов. В случае линейной зависимости Эхi рассчитываются по формуле: Эхi=Аi*Хсрi/Yср, где Аi – коэффициент регрессии при i–ом факторе.

Для нашего примера: Х1ср=45; Х2ср=11,2; Ycp=11; Э1=0,075*45/11= 0,307352%; Э2=-0,345*11,2/11= -0,35108%. Полученные значения свидетельствуют, что 1-ый фактор (численность) оказывает менее сильное влияние на результат по сравнению со 2-ым фактором. Отрицательная величина коэффициента эластичности указывает на наличие обратной связи.

3) Стандартизированные частные коэффициенты регрессии b-коэффициенты, которые показывают, на какую часть среднего квадратического отклонения sу изменится зависимая переменная Y с изменением соответствующего фактора Хi на величину своего среднего квадратического отклонения (sхj) при неизменном влиянии прочих факторов (входящих в уравнение). Этот коэффициент позволяет сравнивать влияние колеблемости различных факторов на вариацию исследуемого показателя, на основе чего выявляются факторы, в развитии которых заложены наибольшие резервы изменения результативного показателя: bi=Ai*sj /sу.

Тогда для нашего примера b1=0,075*29,076/3,847=0,568;

b2=-0,345*0,627/3,847 = -0,562. Выводы: Если фактор Х1 увеличить на одно свое среднее квадратическое отклонение от среднего его уровня, то признак-результат увеличится на 0,568 своего среднего квадратического отклонения при условии, что фактор Х2 сохраняется на уровне среднего значения и не меняется. Аналогично интерпретируется коэффициент b2. êb1ê>êb2ê и можно сделать вывод, что Х1 оказывает более сильное влияние на результат, чем Х2.

По коэффициентам эластичности могут быть сделаны противоположные выводы. Причины этого: а) вариация одного фактора очень велика; б) разнонаправленное воздействие факторов на результат.

Коэффициенты эластичности и b-коэффициенты взаимосвязаны следующим образом: bi=Эi*Vi/Vy, где Vi- коэффициент вариации (отношение среднего к сигма) i-ого факторного признака, Vy- коэффициент вариации результативного признака.

Коэффициент bi измеряет прямое (непосредственное) влияние фактора (Хi) на результат.

4) Парные коэффициенты корреляцииr (для множественной зависимости – матрица парных коэффициентов). Эти коэффициенты характеризуют тесноту связи результата с каждым из факторов в отдельности, т.е. они измеряют полное влияние Полное влияние признака-фактора (Xi) на результат (измеряемое ryxi) определяется суммой прямого (bi) и косвенного влияния (åj=1;m(j¹i) bj*rij ):

rxiy=bi+åj=1;m(j¹i) bj*rij.

5) Коэффициент множественной детерминации и корреляции. Они характеризуют совместное влияние всех факторов на результат. По аналогии с парной регрессией можно определить долю вариации результата, объясненной вариацией включенных в модель факторов (d*2), в его общей вариации (s2). Ее количественная характеристика – теоретический множественный коэффициент детерминации.

Если s2= d*2+e*2, (где d*2 - объясненная уравнением регрессии дисперсия результативного признака; e*2- остаточная или необъясненная уравнением регрессии дисперсия результативного признака), то:

0<=R2<=1

Кроме, того данный показатель для линейного уравнения регрессии может быть рассчитан через b-коэффициенты, как: R2i=1m bi*ryi.

Для любой формы связи справедливо следующее соотношение:

Данный показатель используется также в качестве критерия выбора вида модели (т.е. формы зависимости). Чем больше значение R2, тем лучше. В качестве критерия выбора вида модели может быть использованы также показатели: средняя ошибка аппроксимации и средняя квадратическая ошибка уравнения регрессии (аналогичные рассмотренным при анализе парных связей).

R=ÖR2- коэффициент множественной корреляции (в отличии от парного коэффициента корреляции, который может принимать отрицательные значения, R2 используется без учета направления связи).

 
 

Чем плотнее фактические значения Yi располагаются относительно линии регрессии, тем меньше остаточная дисперсия (больше факторная (объясненная) дисперсия) и, следовательно, больше величина Ry x1,x2,..xm.

Рассчитаем коэффициент множественной детерминации для нашего примера:

s2= 14,8; d*2=13,74; R2=0,9288, т.е. 92,88% вариации объема продаж объясняется вариацией включенных в модель факторов, а именно: числом конкурентов и численностью населения в рассматриваемой торговой зоне. R=0,96. Это значит, что связь между факторами и результатом довольно тесная.

Важное свойство коэффициента детерминации состоит в том, что это неубывающая функция от числа факторов, т.е. включение в модель любого другого дополнительного фактора не приведет к снижению R2. R2=1- åei2/å(Yi-Ycp)2. Знаменатель от числа факторов не зависит. А числитель снижается с введением в модель дополнительного фактора. Поэтому при сравнении 2-ух моделей иногда не совсем ясно, за счет чего возрос R2: за счет реального влияния дополнительного фактора на результат, либо просто ввиду увеличения числа факторов.

R2y x1,x2,..xm<= R2y x1,x2,..,хm, xm+1.

Для того, чтобы значения R2 были сравнимы по разным моделям необходимо учесть число независимых переменных в модели. Это можно сделать, если определить коэффициент детерминации не через сумму квадратов, а через дисперсии на 1 степень свободы (скорректированный R2):

m- общее число параметров в уравнении регрессии;

n- число наблюдений.

Если n велико, то R2 и R2скор будут незначительно отличаться. Для нашего примера: R2скор =0,9085.

6) Коэффициент частной корреляции.Показатели парной корреляции характеризуют тесноту связи результата и фактора не принимая во внимание возможного влияния на результат других факторных признаков. Поэтому во множественном регрессионном анализе возникает проблема определения тесноты связи между двумя признаками в чистом виде, т.е. при устранении воздействия других факторов. Нам под силу исключить влияниетолько учтенных в модели факторов. Для этого определяют частные коэффициенты корреляции или частные индексы корреляции (в зависимости от формы связи).Коэффициент частной корреляции оценивает тесноту связи между результатом и частным фактором при устранении влияния прочих факторов, включенных в уравнение.

Пусть исследовалась зависимость Y=f(X1,ε1) для которой: e2yx1=åei2/n.

Включив в уравнение регрессии дополнительный фактор Х2, т.е. найдя зависимость Y=f(X1, Х2,ε12) мы получим остаточную дисперсию результата: e2yx1x2<=e2yx1. Сокращение остаточной дисперсии за счет дополнительного включения в уравнение регрессии фактора Х2 составит: e2yx1-e2yx1х2. Чем выше доля этого сокращения в исходной дисперсии, т.е. чем выше соотношение (e2yx1-e2yx1х2)/ e2yx1, тем теснее связь между Y и X2 при постоянном действии Х1.

Корень квадратный из этой величины и есть коэффициент частной корреляции результата со вторым фактором при постоянном действии первого фактора:

В чистом виде тесноту связи Y и Х1 можно оценить по следующей общей формуле:

Для расчета частных коэффициентов корреляции могут быть использованы парные коэффициенты корреляции.

Для случая зависимости Y от двух признаков можно будет вычислить 2 коэффициента частной корреляции:


- коэффициент частной корреляции 1-ого порядка:

 
 

(2-ой фактор Х2 фиксирован).

 
 

(1-ый фактор Х1 фиксирован).

 
 

(фактор-результат Y фиксирован).

- коэффициент частной корреляции 2-ого порядка:

 

Порядок частного коэффициента корреляции определяется числом факторов, влияние которых исключается. Если рассматривается регрессия с числом факторов m, то возможны частные коэффициенты корреляции не только первого, но и второго , ..., (m-1)-ого порядка.

 

 
 

На практике наибольший интерес представляют частные коэффициенты корреляции самого высокого порядка.

Данные формулы для расчета частных коэффициентов корреляции называются реккурентными.

Для нашего примера:

ryx1.*x2=(0,823-(-0,82)*(-0,45446))/ ((1-0,822)*(1-0,454462))1/2=0,8845 .

(ryx1=-0,823).

ryx2.*x1=(-0,82-0,823*(-0,45446))/ ((1-0,454462)*(1-0,8232))1/2= -0,883

(ryx2=-0,82).

Коэффициенты частной корреляции оказались несколько выше соответствующих парных коэффициентов корреляции. То есть при закреплении численности населения на постоянном (например, среднем) уровне связь объема продаж с расстоянием от центра оказалась более тесной (çryx2.*x1ç=0,883>ç ryx2ç=0,83051). При закреплении расстояния от центра на постоянном уровне связь между объемом продаж и численностью населения оказалась более тесной (çryx1.x2ç= 0,883>ç ryx1ç=0,82).

Если выразить остаточную дисперсию через показатель детерминации, то в 2-х факторной модели:

Для общего случая (Y=ã+б1*X1+б2*X2+...+бm*Xm+ε) частные коэффициенты корреляции можно определить таким образом: ryxm/x1,x2…xm-1=Ö( R2m- R2m-1)/(1-R2m-1)

где R2yx1x2...xm- коэффициент детерминации У с комплексом факторов: Х1,….Хm;

R2yx1x2...xi-1xi+1...xm- коэффициент детерминации У с комплексом факторов: Х1,…,Xi-1, Xi+1...Xm.

Частные коэффициенты корреляции, рассчитанные по реккурентной формуле изменяются от –1 до +1, а по формулам через множественные коэффициенты детерминации– от 0 до 1.

Частные коэффициенты корреляции также как и -коэффициенты используются для ранжирования факторов, участвующих в множественной линейной регрессии, а именно для отсева факторов. При малых значениях ryxm/x1,x2…xm-1 нет смысла вводить в уравнение m-ый фактор, т.к. эффективность уравнения регрессии при его введении возрастет незначительно.

Квадрат частного коэффициента корреляции - частный коэффициент детерминации. Коэффициенты частной детерминации в нем могут быть сравнимы, т.к. представляют собой доли от разных величин.

Оценка значимости уравнения регрессии.

1) Проверка гипотез о значимости коэффициентов регрессии:

Н0: бj=0 (гипотеза о равенстве 0 (незначимости) истинного коэффициента регрессии при j–ом факторе).

Н1: бj¹0.

Статистика критерия проверки данной гипотезы:

Sbj=bj/m(bj),

bj – оценка коэффициента регрессии бj, полученная по данным наблюдений.

m(bj) – стандартная ошибка коэффициента регрессии;

m(bj)=Öå(Yi-Y’i)2/[(n-2)å(Xji -Xjcp)2].

Данная статистика имеет распределение Стьюдента с (n-h) степенями свободы (где n- число наблюдений; h- число оцениваемых параметров).

Критическое значение статистики определяется по таблицам Стьюдента для уровня значимости a=1-g и числа степеней свободы (n-h).

Если êSbjê<Sкр, то с вероятностью g можно утверждать, что нет оснований отвергать гипотезу Н0. Если êSbjê>Sкр, то Н0 отвергается и принимается гипотеза Н1 о значимом отличии от 0 коэффициента регрессии.

Для нашего примера Y’=11,48+0,075*X1-0,345*X2.

m(b1)=0,015; m(b2)=0,0694; m(а)=1,298;

Sb1=0,075/0,015=5,016; Sb2=-4,97; Sa=8,84.

k=10-3=7 (число степеней свободы).

Sкр(a=0,05;k=7)=2,36; Sкр(a=0,01;k=7)=1,89.

Так как êSнаблê>Sкр , то параметры уравнения могут считаться значимыми с вероятностью 95% (а также 90%).

На практике можно не искать Sкр, а использовать следующее правило: если Sкр>2 Н0 можно отвергнуть и с вероятностью 95% утверждать, что бj статистически значим. При небольшом числе наблюдений (Sкр>3).

Стандартные ошибки коэффициентов регрессии используются также для построения доверительного интервала истинного коэффициента регрессии бj.

bj-m(bj)*Sкр<=бj<=bj+m(bj)*Sкр.

Для нашего примера: с вероятностью 95% построим доверительный интервал для коэффициентов регрессии:

0,075-2,36*0,015<=б1<=0,075+2,36*0,015 0,0397<=б1<=0,11

-0,345-2,36*0,0694<=б2<=-0,345+2,36*0,0694 -0,51<=б2<=-0,181

3) Применение F-критерия Фишера для оценки значимости коэффициента множественной детерминации и уравнения в целом.

H0: R2=0 или б1=б2=...=бm=0 (гипотеза о незначимости уравнения).

Для ее проверки строится таблица результатов дисперсионного анализа.

При этом необходимо помнить, что число степеней свободы объясненной (факторной) дисперсии равно h-1, а число степеней свободы остаточной дисперсии равно n-h.


 

Компоненты вариации Сумма квадратов отклонений Число степеней свободы (k) Дисперсия на 1 степень свободы (S) F-критерий
Объясненная å(Y’i-Ycp)2 h-1 Sфакт=å(Y’i-Ycp)2/(m-1) Sфакт/Sост
Остаточная å(Y’i-Yi)2 n-h Sост=å(Y’i-Yi)2/ (n-m)  
Общая å(Yi-Ycp)2 n-1 Sобщ=å(Yi-Ycp)2/(n-1)  

По таблицам распределения Фишера находят Fкр для уровня значимости a и числа степеней свободы k1=h-1 и k2=n-h.

Сравнивают Fнабл с Fкр(a;k1;k2). Если Fнабл<Fкр(a;k1;k2), то Н0 не отвергают. Если Fнабл>Fкр(a;k1;k2), то Н0 отвергают и принимают гипотезу о значимости уравнения.

Для нашего примера:

Н0: R2=0 или б1=б2=0.

Компоненты вариации Сумма квадратов отклонений Число степеней свободы (k) Дисперсия на 1 степень свободы (S) F-критерий
Объясненная 137,467377 68,73369 45,680
Остаточная 10,53262297 1,50466  
Общая    

Fкр(a=0,05;k1=2;k2=7)=4,74.

Так как Fнабл=45,68>Fкр(a;k1;k2), то Н0 можно отвергнуть и с вероятностью 95% утверждать, что коэффициент детерминации считается значимым и построенная модель адекватно описывает исходные данные.

Примечание: Фактическое значение F-критерия можно определить через коэффициент детерминации с учетом изменения числа степеней свободы:

F=R2/(1-R2)*(n-h)/(h-1), где n-число наблюдений; h – число оцениваемых параметров.

4) Оценка значимости дополнительного включения фактора (частный F–критерий).

Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличить долю объясненной вариации результативного признака. Это может быть связано с последовательностью вводимых факторов (т.к. существует корреляция между самими факторами). Мерой оценки включения фактора в модель может служить частный F-критерий (Fxj).

Допустим, что оценивается значимость фактора Х1, как дополнительно включенного в модель:

В общем виде:

в числителе – прирост доли вариации Y за счет дополнительно включенного в модель фактора.

Если Fxj>Fкр(a;k1=1;k2=n-h), то дополнительное введение фактора в модель статистически оправдано.

С помощью частного F–критерия можно проверить значимость введения фактора в модель, если ставить его на последнее место.

Рассмотрим методику расчета частного F–критерия на нашем примере.

1. По исходным данным построили уравнение регрессии зависимости результата только от фактора Х1 – численности населения: Y’x1=6,1+0,108*Х1.

2. Определим факторную (объясненную) сумму квадратов: å(Y’x1i-Ycp)2=47,7.

3. Включаем в модель дополнительный фактор Х2- расстояние от центра. По множественному уравнению получим следующую таблицу дисперсионного анализа:

Компоненты вариации Сумма квадратов отклонений Число степеней свободы (k) Дисперсия на 1 степень свободы (S) F-критерий
Объясненная 137,5 68,7 F=45,68
В т.ч.: Х1 47,7 47,7 Fx1=47,7/1,5=31,7
Х2 89,8 89,8 Fx2 част=89,8/1,5=59,66
Остаточная 10,5 1,5  
Общая    

4. Теперь можно определить отношение не только отношение всей факторной дисперсии к остаточной, но и отношение отдельных ее компонентов (Fx2 част), которые позволяют оценить значимо ли дополнительное включение в модель фактора Х2. F отношение для Х1 (Fx1)- это некоторая условная величина.

5. Определим Fx2 кр (0,05;1;7)=5,59.

6. Сравним Fx2 част и Fx2 кр. Так как Fx2 част >Fx2 кр, то с вероятностью 95% можно утверждать, что дополнительное включение в модель фактора Х2 целесообразно, т.к. доля дисперсии, объясненной за счет дополнительного включения в модель этого фактора статистически значимо.

Аналогично определяется частный F-критерий для фактора Х1:

Fx2 част =89,07/1,5=59,2 >Fx2 кр , т.е. дополнительное включение фактора Х1 в модель статистически оправдано.

Соотношение между S–критерием Стьюдента и F–критерием.

Во множественной регрессии : Y’=a+åbj*Xj Sbj2= Fxj част.

Покажем это: Sbj=bj/m(bj); m(bj)=Öå(Y-Y’)2/[(n-m)å(X-Xcp)2];

å(Y-Y’)2/n=sy2(1-R2yx1x2...xm); å(X-Xcp)2=sxj2(1-R2xjx1x2...xm);

R2xjx1x2...xm- коэффициент детерминации зависимости Хj от всех других факторов модели.

Тогда m(bj)= 1/(Ön-h)*syÖ(1- R2yx1x2...xm)/ sxjÖ(1-R2xjx1x2...xm);

bj=sy/sxj*bj=sy/sxj*Ö(R2yx1x2...xm - R2yx1x...xj-1xj+1....xm)/( 1-R2xjx1x2...xm);

Sbj=[Ö(R2yx1x2...xm - R2yx1x...xj-1xj+1....xm)/( 1-R2yx1x2...xm)]* Ö(n-h)= ÖFxj;

Доверь свою работу ✍️ кандидату наук!
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой



Поиск по сайту:







©2015-2020 mykonspekts.ru Все права принадлежат авторам размещенных материалов.