Мои Конспекты
Главная | Обратная связь

...

Автомобили
Астрономия
Биология
География
Дом и сад
Другие языки
Другое
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Металлургия
Механика
Образование
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Туризм
Физика
Философия
Финансы
Химия
Черчение
Экология
Экономика
Электроника

Оценка параметров, оценка адекватности модели





Помощь в ✍️ написании работы
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Парная регрессия и корреляция

Оценка параметров, оценка адекватности модели

В регрессионном анализе рассматривается односторонняя стохастическая зависимость случайной переменной у от одной (или нескольких) неслучайной независимой переменной х.

Рассмотрим линейную модель и представим ее в виде

= b0 + b1x. (1)

Для решения поставленной задачи определим формулы расчета неизвестных параметров уравнения линейной регрессии (b0, b1) используя метод наименьших квадратов (МНК).

Согласно МНК неизвестные параметры b0 и b1 выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений yi от значений , найденных по уравнению регрессии (1), была минимальной:

. (2)

На основании необходимого условия экстремума функции двух переменных S = S(b0, b1) (4) приравняем к нулю ее частные производные, откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии. Затем, разделив обе части уравнений системы на n, получим систему нормальных уравнений в следующем виде:

(3)

где соответствующие средние определяются по формулам:

; (4) ; (6)

; (5) . (7)

Решая систему (3), найдем

, (8)

где - выборочная дисперсия переменной х:

, (9)

- выборочный корреляционный момент или выборочная ковариация:

. (10)

Коэффициент b1 называется выборочным коэффициентом регрессии Y по X.

Коэффициент регрессии у по х показывает, на сколько единиц в среднем изменяется переменная у при увеличении переменной х на одну единицу.

Для двух случайных переменных можно определить выборочный коэффициент корреляции, который является показателем тесноты связи.

Если r > 0 (b1 > 0), то корреляционная связь между переменными называется прямой, если r < 0 (b1 < 0), - обратной.

Формулы для расчета коэффициента корреляции имеют следующий вид:

; (11)

. (12)

Выборочный коэффициент корреляции обладает следующими свойствами:

1.Коэффициент корреляции принимает значения на отрезке [-1: 1], т.е. -1 ≤ r ≥ 1.

2.При r=±1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдения располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси ОХ.

В силу воздействия неучтенных факторов и причин отдельные наблюдения переменной у будут в большей или меньшей мере отклоняться от функции регрессии j(х). В этом случае уравнение взаимосвязи двух переменных (парная регрессионная модель) может быть представлена в виде:

у = j(х) + e,

где e - случайная переменная (случайный член), характеризующая отклонение от функции регрессии.

Отметим основные предпосылки регрессионного анализа (условия Гаусса-Маркова).

1. В модели yi = b0 + b1xi + ei возмущение ei есть величина случайная, а объясняющая переменная xi – величина неслучайная.

2. Математическое ожидание возмущения ei равно нулю:

M(ei) = 0. (13)

3. Дисперсия возмущения ei постоянна для любого i:

D(ei) = s2. (14)

4. Возмущения ei и ej не коррелированны:

M(ei ej) = 0 (i ¹ j). (15)

5. Возмущения ei есть нормально распределенная случайная величина.

Оценкой модели yi = b0 + b1xi + ei по выборке является уравнение регрессии = b0 + b1x. Параметры этого уравнения b0 и b1 определяются на основе МНК. Воздействие неучтенных случайных факторов и ошибок наблюдений в модели определяется с помощью дисперсии возмущений (ошибок) или остаточной дисперсии.

Теорема Гаусса-Маркова. Если регрессионная модель
yi = b0 + b1xi + ei удовлетворяет предпосылкам 1-5, то оценки b0, b1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Таким образом, оценки b0 и b1 в определенном смысле являются наиболее эффективными линейными оценками параметров b0 и b1.

Проверить значимость уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.

Нулевая гипотеза Н0 – это основное проверяемое предположение, которое обычно формулируется как отсутствие различий, отсутствие влияние фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п.

Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей или альтернативной гипотезой.

Коэффициент регрессии (b1) является случайной величиной. Отсюда после вычисления возникает необходимость проверки гипотезы о значимости полученного значения. Выдвигаем нулевую гипотеза (Н0) о равенстве нулю коэффициента регрессии (Н0:b1 = 0) против альтернативной гипотезы (Н1) о неравенстве нулю коэффициента регрессии (Н1:b1 ¹ 0). Для проверки гипотезы Н0 против альтернативы используется t-статистика, которая имеет распределение Стьюдента с (n - 2) степенями свободы (парная линейная регрессия).

Коэффициент регрессии надежно отличается от нуля (отвергается нулевая гипотеза Н0), если tнабл > ta;n-2. В этом случае вероятность нулевой гипотезы будет меньше выбранного уровня значимости. ta;n-2 - критическая точка, определяемая по математико-статистическим таблицам.

Проверка значимости уравнения регрессии производится на основе дисперсионного анализа.

Согласно основной идее дисперсионного анализа

(16)

или

Q = QR + Qe, (17)

где Q – общая сумма квадратов отклонений зависимой переменной от средней, а QR и Qe – соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид, представленный в табл. 1.

Средние квадраты и s2 (табл. 1) представляют собой несмещенные оценки дисперсий зависимой переменной, обусловленных соответственно регрессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров уравнения регрессии; п – число наблюдений.

При отсутствии линейной зависимости между зависимой и объясняющими(ей) переменными случайные величины и имеют c2-распределение соответственно с т – 1 и пт степенями свободы.

Таблица 1

Компоненты дисперсии Сумма квадратов Число степеней свободы Средние квадраты
Объясненная m – 1
Остаточная nm
Общая n – 1  

Поэтому уравнение регрессии значимо на уровне a, если фактически наблюдаемое значение статистики

, (18)

где - табличное значение F-критерия Фишера-Снедекора, определяемое на уровне значимости a при k1 = m – 1 и k2 = nm степенях свободы.

Учитывая смысл величин и s2, можно сказать, что значение F показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению с ее средней.

Для парной линейно регрессии т = 2, и уравнение регрессии значимо на уровне a (отвергается нулевая гипотеза), если

. (19)

Следует отметить, что значимость уравнения парной линейной регрессии может быть проведена и другим способом, если оценить значимость коэффициента регрессии b1, который имеет t-распределение Стьюдента с k = n – 2 степенями свободы.

Уравнение парной регрессии или коэффициент регрессии b1 значимы на уровне a (иначе – гипотеза Н0 о равенстве параметра b1 нулю, т.е.
Н0:b1 = 0, отвергается), если фактически наблюдаемое значение статистики

(20)

больше критического (по абсолютной величине), т.е. |t| > t1 - a; n - 2.

Коэффициент корреляции r значим на уровне a (Н0: r = 0), если

. (21)

Одной из наиболее эффективных оценок адекватности регрессионной модели, мерой качества уравнения регрессии, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации, определяемый по формуле:

. (22)

Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной.

В случае парной линейной регрессионной модели коэффициент детерминации равен квадрату корреляции, т.е. R2 = r2.

Доверь свою работу ✍️ кандидату наук!
Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой



Поиск по сайту:







©2015-2020 mykonspekts.ru Все права принадлежат авторам размещенных материалов.