Парная регрессия. Уравнение парной регрессии

Парная линейная регрессия

ПРАКТИКУМ

Парная линейная регрессия: Практикум. –

Изучение эконометрики предполагает приобретение студентами опыта построения эконометрических моделей, принятия решений о спецификации и идентификации модели, выбора метода оценки параметров модели, оценки ее качества, интерпретации результатов, получения прогнозных оценок и пр. Практикум поможет студентам приобрести практические навыки в этих вопросах.

Утверждено редакционно-издательским советом

Составитель: М.Б. Перова, д.э.н., профессор

Общие положения

Эконометрическое исследование начинается с теории, устанавливающей связь между явлениями. Из всего круга факторов, влияющих на результативный признак, выделяются наиболее существенные факторы. После того, как было выявлено наличие взаимосвязи между изучаемыми признаками, определяется точный вид этой зависимости с помощью регрессионного анализа.

Регрессионный анализ заключается в определении аналитического выражения (в определении функции), в котором изменение одной величины (результативного признака) обусловлено влиянием независимой величины (факторного признака). Количественно оценить данную взаимосвязь можно с помощью построения уравнения регрессии или регрессионной функции.

Базисной регрессионной моделью является модель парной (однофакторной) регрессии. Парная регрессия – уравнение связи двух переменных у и х :

где – зависимая переменная (результативный признак);

–независимая, объясняющая переменная (факторный признак).

В зависимости от характера изменения у с изменением х различают линейные и нелинейные регрессии.

Линейная регрессия

Данная регрессионная функция называется полиномом первой степени и используется для описания равномерно развивающихся во времени процессов.

Наличие случайного члена (ошибки регрессии) связано с воздействием на зависимую переменную других неучтенных в уравнении факторов, с возможной нелинейностью модели, ошибками измерения, следовательно, появлениеслучайной ошибки уравнения регрессии может быть обусловлено следующими объективными причинами :

1) нерепрезентативность выборки. В модель парной регрессии включается фактор, не способный полностью объяснить вариацию результативного признака, который может быть подвержен влиянию многих других факторов (пропущенных переменных) в гораздо большей степени. Наприем, заработная плата может зависеть, кроме квалификации, от уровня образования, стажа работы, пола и пр.;

2) существует вероятность того, что переменные, участвующие в модели, могут быть измерены с ошибкой. Например, данные по расходам семьи на питание составляются на основании записей участников опросов, которые, как предполагается, тщательно фиксируют свои ежедневные расходы. Разумеется, при этом возможны ошибки.

На основе выборочного наблюдения оценивается выборочное уравнение регрессии (линия регрессии ):

,

где
– оценки параметров уравнения регрессии (
).

Аналитическая форма зависимости между изучаемой парой признаков (регрессионная функция) определяется с помощью следующих методов :

    На основе теоретического и логического анализа природы изучаемых явлений, их социально-экономической сущности. Например, если изучается зависимость между доходами населения и размером вкладов населения в банки, то очевидно, что связь прямая.

    Графический метод , когда характер связи оценивается визуально.

Эту зависимость можно наглядно увидеть, если построить график, отложив на оси абсцисс значения признака х , а на оси ординат – значения признака у . Нанеся на график точки, соответствующие значениям х и у , получим корреляционное поле :

а) если точки беспорядочно разбросаны по всему полю – это говорит об отсутствии зависимости между этими признаками;

б) если точки концентрируются вокруг оси, идущей от нижнего левого угла в верхний правый – то имеется прямая зависимость между признаками;

в) если точки концентрируются вокруг оси, идущей от верхнего левого угла в нижний правый – то обратная зависимость между признаками.

Если на корреляционном поле соединим точки отрезками прямой, то получим ломаную линию с некоторой тенденцией к росту. Это будет эмпирическая линия связи или эмпирическая линия регрессии . По ее виду можно судить не только о наличии, но и о форме зависимости между изучаемыми признаками.

Построение уравнения парной регрессии

Построение уравнения регрессии сводится к оценке ее параметров. Эти оценки параметров могут быть найдены различными способами. Одним их них является метод наименьших квадратов (МНК). Суть метода состоит в следующем. Каждому значению соответствует эмпирическое (наблюдаемое) значение. Построив уравнение регрессии, например уравнение прямой линии, каждому значениюбудет соответствовать теоретическое (расчетное) значение. Наблюдаемые значенияне лежат в точности на линии регрессии, т.е. не совпадают с. Разность между фактическим и расчетным значениями зависимой переменной называетсяостатком :

МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических , т.е. сумма квадратов остатков, минимальна:

Для линейных уравнений и нелинейных, приводимых к линейным, решается следующая система относительно а и b :

где n – численность выборки.

Решив систему уравнений, получим значения а и b , что позволяет записать уравнение регрессии (регрессионное уравнение):

где – объясняющая (независимая) переменная;

–объясняемая (зависимая) переменная;

Линия регрессии проходит через точку (,) и выполняются равенства:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы уравнений:

где – среднее значение зависимого признака;

–среднее значение независимого признака;

–среднее арифметическое значение произведения зависимого и независимого признаков;

–дисперсия независимого признака;

–ковариация между зависимым и независимым признаками.

Выборочной ковариацией двух переменных х , у называется средняя величина произведения отклонений этих переменных от своих средних

Параметр b при х имеет большое практическое значение и носит название коэффициента регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется величина у х на 1 единицу своего измерения.

Знак параметра b в уравнении парной регрессии указывает на направление связи:

если
, то связь между изучаемыми показателями прямая, т.е. с увеличением факторного признаках увеличивается и результативный признак у , и наоборот;

если
, то связь между изучаемыми показателями обратная, т.е. с увеличением факторного признаках результативный признак у уменьшается, и наоборот.

Значение параметра а в уравнении парной регрессии в ряде случаев можно трактовать как начальное значение результативного признака у . Такая трактовка параметра а возможна только в том случае, если значение
имеет смысл.

После построения уравнения регрессии, наблюдаемые значения y можно представить как:

Остатки , как и ошибки, являются случайными величинами, однако они, в отличие от ошибок, наблюдаемы. Остаток есть та часть зависимой переменнойy , которую невозможно объяснить с помощью уравнения регрессии.

На основании уравнения регрессии могут быть вычислены теоретические значения у х для любых значений х .

В экономическом анализе часто используется понятие эластичности функции. Эластичность функции
рассчитывается как относительное изменениеy к относительному изменению x . Эластичность показывает, на сколько процентов изменяется функция
при изменении независимой переменной на 1%.

Поскольку эластичность линейной функции
не является постоянной величиной, а зависит отх , то обычно рассчитывается коэффициент эластичности как средний показатель эластичности.

Коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится величина результативного признака у при изменении факторного признака х на 1% от своего среднего значения:

где
– средние значения переменныхх и у в выборке.

Оценка качества построенной модели регрессии

Качество модели регрессии – адекватность построенной модели исходным (наблюдаемым) данным.

Чтобы измерить тесноту связи, т.е. измерить, насколько она близка к функциональной, нужно определить дисперсию, измеряющую отклонения у от у х и характеризующую остаточную вариацию, обусловленную прочими факторами. Они лежат в основе показателей, характеризующих качество модели регрессии.

Качество парной регрессии определяется с помощью коэффициентов, характеризующих

1) тесноту связи – индекса корреляции, парного линейного коэффициента корреляции;

2) ошибку аппроксимации;

3) качество уравнения регрессии и отдельных его параметров – средние квадратические ошибки уравнения регрессии в целом и отдельных его параметров.

Для уравнений регрессии любого вида определяется индекс корреляции , который характеризует только тесноту корреляционной зависимости, т.е. степень ее приближения к функциональной связи:

,

где – факторная (теоретическая) дисперсия;

–общая дисперсия.

Индекс корреляции принимает значения
, при этом,

если

если
– то связь между признакамих и у является функциональной, Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками. Если
, то связь можно считать тесной

Дисперсии, необходимые для вычисления показателей тесноты связи вычисляются:

Общая дисперсия , измеряющая общую вариацию за счет действия всех факторов:

Факторная (теоретическая) дисперсия, измеряющая вариацию результативного признака у за счет действия факторного признака х :

Остаточная дисперсия , характеризующая вариацию признака у за счет всех факторов, кроме х (т.е. при исключенном х ):

Тогда по правилу сложения дисперсий:

Качество парной линейной регрессии может быть определено также с помощью парного линейного коэффициента корреляции :

,

где
– ковариация переменныхх и у ;

–среднеквадратическое отклонение независимого признака;

–среднеквадратическое отклонение зависимого признака.

Линейный коэффициент корреляции характеризует тесноту и направление связи между изучаемыми признаками. Он измеряется в пределах [-1; +1]:

если
– то связь между признаками прямая;

если
– то связь между признаками обратная;

если
– то связь между признаками отсутствует;

если
или
– то связь между признаками является функциональной, т.е. характеризуется полным соответствием междух и у . Чем ближе к 1, тем более тесной считается связь между изучаемыми признаками.

Если индекс корреляции (парный линейный коэффициент корреляции) возвести в квадрат, то получим коэффициент детерминации.

Коэффициент детерминации – представляет собой долю факторной дисперсии в общей и показывает, на сколько процентов вариация результативного признака у объясняется вариацией факторного признака х :

Он характеризует не всю вариацию у от факторного признака х , а лишь ту ее часть, которая соответствует линейному уравнению регрессии, т.е. показывает удельный вес вариации результативного признака, линейно связанной с вариацией факторного признака.

Величина
– доля вариации результативного признака, которую модель регрессии учесть не смогла.

Рассеяние точек корреляционного поля может быть очень велико, и вычисленное уравнение регрессии может давать большую погрешность в оценке анализируемого показателя.

Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических:

Максимально допустимое значение 12–15%.

Мерой разброса зависимой переменной вокруг линии регрессии служит стандартная ошибка.Для всей совокупности наблюдаемых значений рассчитывается стандартная (среднеквадратическая) ошибка уравнения регрессии , которая представляет собой среднее квадратическое отклонение фактических значений у относительно теоретических значений, рассчитанных по уравнению регрессии у х .

,

где
– число степеней свободы;

m – число параметров уравнения регрессии (для уравнения прямой m =2).

Оценить величину средней квадратической ошибки можно сопоставив ее

а) со средним значение результативного признака у ;

б) со средним квадратическим отклонением признака у :

если
, то использование данного уравнения регрессии является целесообразным.

Отдельно оцениваются стандартные (среднеквадратические) ошибки параметров уравнения и индекса корреляции :

;
;
.

х – среднее квадратическое отклонение х .

Проверка значимости уравнения регрессии и показателей тесноты связи

Чтобы построенную модель можно было использовать для дальнейших экономических расчетов, проверки качества построенной модели недостаточно. Необходимо также проверить значимость (существенность) полученных с помощью метода наименьших квадратов оценок уравнения регрессии и показателя тесноты связи, т.е. необходимо проверить их на соответствие истинным параметрам взаимосвязи.

Это связано с тем, что исчисленные по ограниченной совокупности показатели сохраняют элемент случайности, свойственный индивидуальным значениям признака. Поэтому они являются лишь оценками определенной статистической закономерности. Необходима оценка степени точности и значимости (надежности, существенности) параметров регрессии. Под значимостью понимают вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков.

Проверка значимости – проверка предположения того, что параметры отличаются от нуля.

Оценка значимости парного уравнения регрессии сводится к проверке гипотез о значимости уравнения регрессии в целом и отдельных его параметров (a , b ), парного коэффициента детерминации или индекса корреляции.

В этом случае могут быть выдвинуты следующие основные гипотезы H 0 :

1)
– коэффициенты регрессии являются незначимыми и уравнение регрессии также является незначимым;

2)
– парный коэффициент детерминации незначим и уравнение регрессии также является незначимым.

Альтернативной (или обратной) выступают следующие гипотезы:

1)
– коэффициенты регрессии значимо отличаются от нуля, и построенное уравнение регрессии является значимым;

2)
– парный коэффициент детерминации значимо отличаются от нуля и построенное уравнение регрессии является значимым.

Проверка гипотезы о значимости уравнения парной регрессии

Для проверки гипотезы о статистической незначимости уравнения регрессии в целом и коэффициента детерминации используется F -критерий (критерий Фишера ):

или

где k 1 = m –1 ; k 2 = n m – число степеней свободы;

n – число единиц совокупности;

m – число параметров уравнения регрессии;

–факторная дисперсия;

–остаточная дисперсия.

Гипотеза проверяется следующим образом:

1) если фактическое (наблюдаемое) значение F -критерия больше критического (табличного) значения данного критерия
, то с вероятностью
основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации отвергается, и уравнение регрессии признается значимым;

2) если фактическое (наблюдаемое) значение F-критерия меньше критического значения данного критерия
, то с вероятностью (
) основная гипотеза о незначимости уравнения регрессии или парного коэффициента детерминации принимается, и построенное уравнение регрессии признается незначимым.

Критическое значение F -критерия находится по соответствующим таблицам в зависимости от уровня значимости и числа степеней свободы
.

Число степеней свободы – показатель, который определяется как разность между объемом выборки (n ) и числом оцениваемых параметров по данной выборке (m ). Для модели парной регрессии число степеней свободы рассчитывается как
, так как по выборке оцениваются два параметра (
).

Уровень значимости – величина, определяемая
,

где – доверительная вероятность попадания оцениваемого параметра в доверительный интервал. Обычно принимается 0,95. Таким образом– это вероятность того, что оцениваемый параметр не попадет в доверительный интервал, равная 0,05 (5%) .

Тогда в случае оценки значимости уравнения парной регрессии критическое значение F-критерия вычисляется как
:

.

Проверка гипотезы о значимости параметров уравнения парной регрессии и индекса корреляции

При проверке значимости параметров уравнения (предположения того, что параметры отличаются от нуля) выдвигается основная гипотеза о незначимости полученных оценок (
. В качестве альтернативной (обратной) выдвигается гипотеза о значимости параметров уравнения (
).

Для проверки выдвинутых гипотез используется t -критерий (t -статистика) Стьюдента . Наблюдаемое значение t -критерия сравнивается со значением t -критерия, определяемого по таблице распределения Стьюдента (критическим значением). Критическое значение t -критерия
зависит от двух параметров: уровня значимостии числа степеней свободы
.

Выдвинутые гипотезы проверяются следующим образом:

1) если модуль наблюдаемого значения t -критерия больше критического значения t -критерия, т.е.
, то с вероятностью
основную гипотезу о незначимости параметров регрессии отвергают, т.е. параметры регрессии не равны 0;

2) если модуль наблюдаемого значения t -критерия меньше или равен критическому значению t -критерия, т.е.
, то с вероятностью
основная гипотеза о незначимости параметров регрессии принимается, т.е. параметры регрессии почти не отличаются от 0 или равны 0.

Оценка значимости коэффициентов регрессии с помощью критерия Стьюдента проводится путем сопоставления их оценок с величиной стандартной ошибки:

;

Для оценки статистической значимости индекса (линейного коэффициента) корреляции применяется также t -критерий Стьюдента.

И корреляция

1.1. Понятие регрессии

Парной регрессией называется уравнение связи двух переменных у и х

вида y = f (x ),

где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением: y = a + b × x +e .

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным, но ли-

нейных по оцениваемым параметрам:

· полиномы разных степеней

· равносторонняя гипербола:

Примеры регрессий, нелинейных по оцениваемым параметрам:

· степенная

· показательная

· экспоненциальная

Наиболее часто применяются следующие модели регрессий:

– прямой

– гиперболы

– параболы

– показательной функции

– степенная функция

1.2. Построение уравнения регрессии

Постановка задачи. По имеющимся данным n наблюдений за совместным

изменением двух параметров x и y {(xi ,yi ), i=1,2,...,n} необходимо определить

аналитическую зависимость ŷ=f(x) , наилучшим образом описывающую данные наблюдений.

Построение уравнения регрессии осуществляется в два этапа (предполагает решение двух задач):

– спецификация модели (определение вида аналитической зависимости

ŷ=f(x) );

– оценка параметров выбранной модели.

1.2.1. Спецификация модели

Парная регрессия применяется, если имеется доминирующий фактор, который и используется в качестве объясняющей переменной.

Применяется три основных метода выбора вида аналитической зависимости:

– графический (на основе анализа поля корреляций);

– аналитический, т. е. исходя из теории изучаемой взаимосвязи;

– экспериментальный, т. е. путем сравнения величины остаточной дисперсии D ост или средней ошибки аппроксимации , рассчитанных для различных

моделей регрессии (метод перебора).

1.2.2. Оценка параметров модели

Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.

В случае линейной регрессии параметры а и b находятся из следующей

системы нормальных уравнений метода МНК:

(1.1)

Можно воспользоваться готовыми формулами, которые вытекают из этой

(1.2)

Для нелинейных уравнений регрессии, приводимых к линейным с помощью преобразования (x , y ) → (x’ , y’ ), система нормальных уравнений имеет

вид (1.1) в преобразованных переменных x’ , y’ .

Коэффициент b при факторной переменной x имеет следующую интерпретацию: он показывает, на сколько изменится в среднем величина y при изменении фактора x на 1 единицу измерения .

Гиперболическая регрессия :

x’ = 1/x ; y’ = y .

Уравнения (1.1) и формулы (1.2) принимают вид

Экспоненциальная регрессия:

Линеаризующее преобразование: x’ = x ; y’ = lny .

Модифицированная экспонента : , (0 < a 1 < 1).

Линеаризующее преобразование: x’ = x ; y’ = ln y – К│.

Величина предела роста K выбирается предварительно на основе анализа

поля корреляций либо из качественных соображений. Параметр a 0 берется со

знаком «+», если y х > K и со знаком «–» в противном случае.

Степенная функция:

Линеаризующее преобразование: x’ = ln x ; y’ = ln y .

Показательная функция:

Линеаризующее преобразование: x’ = x ; y’ = lny .

https://pandia.ru/text/78/146/images/image026_7.jpg" width="459" height="64 src=">

Парабола второго порядка :

Парабола второго порядка имеет 3 параметра a 0, a 1, a 2, которые определяются из системы трех уравнений

1.3. Оценка тесноты связи

Тесноту связи изучаемых явлений оценивает линейный коэффициент

парной корреляции rxy для линейной регрессии (–1 ≤ r xy ≤ 1)

и индекс корреляции ρxy для нелинейной регрессии

Имеет место соотношение

Долю дисперсии, объясняемую регрессией , в общей дисперсии результативного признака у характеризует коэффициент детерминации r2xy (для линейной регрессии) или индекс детерминации (для нелинейной регрессии).

Коэффициент детерминации – квадрат коэффициента или индекса корреляции.

Для оценки качества построенной модели регрессии можно использовать

показатель (коэффициент, индекс) детерминации R 2 либо среднюю ошибку аппроксимации.

Чем выше показатель детерминации или чем ниже средняя ошибка аппроксимации, тем лучше модель описывает исходные данные.

Средняя ошибка аппроксимации – среднее относительное отклонение

расчетных значений от фактических

Построенное уравнение регрессии считается удовлетворительным, если

значение не превышает 10–12 %.

1.4. Оценка значимости уравнения регрессии, его коэффициентов,

коэффициента детерминации

Оценка значимости всего уравнения регрессии в целом осуществляется с

помощью F -критерия Фишера.

F- критерий Фишера заключается в проверке гипотезы Но о статистической незначимости уравнения регрессии. Для этого выполняется сравнение

фактического F факт и критического (табличного) F табл значений F- критерия

Фишера.

F факт определяется из соотношения значений факторной и остаточной

дисперсий, рассчитанных на одну степень свободы

где n – число единиц совокупности; m – число параметров при переменных.

Для линейной регрессии m = 1 .

Для нелинейной регрессии вместо r 2 xy используется R 2.

F табл – максимально возможное значение критерия под влиянием случайных факторов при степенях свободы k1 = m , k2 = n – m – 1 (для линейной регрессии m = 1) и уровне значимости α.

Уровень значимости α вероятность отвергнуть правильную гипотезу

при условии, что она верна. Обычно величина α принимается равной 0,05 или

Если F табл < F факт, то Н0 -гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.

Для оценки статистической значимости коэффициентов линейной регрессии и линейного коэффициента парной корреляции применяется

t- критерий Стьюдента и рассчитываются доверительные интервалы каждого

из показателей.

Согласно t- критерию выдвигается гипотеза Н0 о случайной природе показателей, т. е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия t факт для оцениваемых коэффициентов регрессии и коэффициента корреляции путем сопоставления их значений с величиной стандартной ошибки

Стандартные ошибки параметров линейной регрессии и коэффициента

корреляции определяются по формулам

Сравнивая фактическое и критическое (табличное) значения t- статистики

t табл и t факт принимают или отвергают гипотезу Но.

t табл – максимально возможное значение критерия под влиянием случайных факторов при данной степени свободы k = n– 2 и уровне значимости α.

Связь между F- критерием Фишера (при k 1 = 1; m =1) и t- критерием Стьюдента выражается равенством

Если t табл < t факт, то Но отклоняется, т. е. a, b и не случайно отличаются

от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт, то гипотеза Но не отклоняется и признается случайная природа формирования а, b или https://pandia.ru/text/78/146/images/image041_2.jpg" width="574" height="59">

F табл определяется из таблицы при степенях свободы k 1 = 1, k 2 = n –2 и при

заданном уровне значимости α. Если F табл < F факт, то признается статистическая значимость коэффициента детерминации. В формуле (1.6) величина m означает число параметров при переменных в соответствующем уравнении регрессии.

1.5. Расчет доверительных интервалов

Рассчитанные значения показателей (коэффициенты a , b , ) являются

приближенными, полученными на основе имеющихся выборочных данных.

Для оценки того, насколько точные значения показателей могут отличаться от рассчитанных, осуществляется построение доверительных интервалов.

Доверительные интервалы определяют пределы, в которых лежат точные значения определяемых показателей с заданной степенью уверенности, соответствующей заданному уровню значимости α.

Для расчета доверительных интервалов для параметров a и b уравнения линейной регрессии определяем предельную ошибку Δ для каждого показателя:

Величина t табл представляет собой табличное значение t- критерия Стьюдента под влиянием случайных факторов при степени свободы k = n –2 и заданном уровне значимости α.

Формулы для расчета доверительных интервалов имеют следующий вид:

https://pandia.ru/text/78/146/images/image045_3.jpg" width="188" height="62">

где t γ – значение случайной величины, подчиняющейся стандартному нормальному распределению, соответствующее вероятности γ = 1 – α/2 (α – уровень значимости);

z’ = Z (rxy) – значение Z- распределения Фишера, соответствующее полученному значению линейного коэффициента корреляции rxy .

Граничные значения доверительного интервала (r– , r+ ) для rxy получаются

из граничных значений доверительного интервала (z– , z+ ) для z с помощью

функции, обратной Z- распределению Фишера

1.6. Точечный и интервальный прогноз по уравнению линейной

регрессии

Точечный прогноз заключается в получении прогнозного значения уp , которое определяется путем подстановки в уравнение регрессии

соответствующего (прогнозного
) значения x p

Интервальный прогноз заключается в построении доверительного интервала прогноза, т. е. нижней и верхней границ уpmin, уpmax интервала, содержащего точную величину для прогнозного значения https://pandia.ru/text/78/146/images/image050_2.jpg" width="37" height="44 src=">

и затем строится доверительный интервал прогноза , т. е. определяются нижняя и верхняя границы интервала прогноза

Контрольные вопросы:

1. Что понимается под парной регрессией?

2. Какие задачи решаются при построении уравнения регрессии?

3. Какие методы применяются для выбора вида модели регрессии?

4. Какие функции чаще всего используются для построения уравнения парной регрессии?

5. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае линейной регрессии?

6. Какой вид имеет система нормальных уравнений метода наименьших квадратов в случае гиперболической, показательной регрессии?

7. По какой формуле вычисляется линейный коэффициент парной корреляции r xy ?

8. Как строится доверительный интервал для линейного коэффициента парной корреляции?

9. Как вычисляется индекс корреляции?

10. Как вычисляется и что показывает индекс детерминации?

11. Как проверяется значимость уравнения регрессии и отдельных коэффициентов?

12. Как строится доверительный интервал прогноза в случае линейной регрессии?

Лабораторная работа № 1

Задание.1 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):

1. Вычислить линейный коэффициент парной корреляции.

2. Проверить значимость коэффициента парной корреляции.

3. Построить доверительный интервал для линейного коэффициента парной корреляции.

Задание. 2 На основании данных табл. П1 для соответствующего варианта (табл. 1.1):

1. Построить предложенные уравнения регрессии, включая линейную регрессию.

2. Вычислить индексы парной корреляции для каждого уравнения.

3. Проверить значимость уравнений регрессии и отдельных коэффициентов линейного уравнения.

4. Определить лучшее уравнение регрессии на основе средней ошибки аппроксимации.

5. Построить интервальный прогноз для значения x = x max для линейного

уравнения регрессии.

Требования к оформлению результатов

Отчет о лабораторной работе должен содержать разделы:

1. Описание задания;

2. Описание решения лабораторной работы (по этапам);

3. Изложение полученных результатов.

Таблица П1

Исходные данные к лабораторным работам № 1, 2

Наличие предметов длительного пользования в домашних хозяйствах по регионам Российской Федерации (европейская часть территории без республик Северного Кавказа) (по материалам выборочного обследования бюджетов домашних хозяйств; на 100 домохозяйств; штук)

1. Основные определения и формулы

Парная регрессия - регрессия (связь) между двумя переменными и т.е. модель вида:

где - зависимая переменная (результативный признак);

- независимая объясняющая переменная (признак-фактор);

Возмущение или стохастическая переменная, включающая влияние неучтенных в модели факторов.

Практически в каждом отдельном случае величина складывается из двух слагаемых:

где - фактическое значение результативного признака;

Теоретическое значение результативного признака, найденное исходя из уравнения регрессии. Знак «^» означает, что между переменными и нет строгой функциональной зависимости.

Различают линейные и нелинейные регрессии.

Линейная регрессия описывается уравнением прямой

Нелинейные регрессии делятся на два класса:

1) регрессии, нелинейные по объясняющим переменным, но линейные по оцениваемым параметрам , например:

Полиномы разных степеней

Равносторонняя гипербола

2) регрессии, нелинейные по оцениваемым параметрам , например:

Степенная

Показательная

Экспоненциальная

Для построения парной линейной регрессии вычисляют вспомогательные величины ( - число наблюдений).

Выборочные средние : и

Выборочная ковариация между и

или

Ковариация - это числовая характеристика совместного распределения двух случайных величин.

Выборочная дисперсия для

или

Выборочная дисперсия для

или

Выборочная дисперсия характеризует степень разброса значений случайной величины вокруг среднего значения (вариабельность, изменчивость).

Тесноту связи изучаемых явлений оценивает выборочный коэффициент корреляции между и

Коэффициент корреляции изменяется в пределах от -1 до +1. Чем ближе от по модулю к 1, тем ближе статистическая зависимость между и к линейной функциональной.

Если =0, то линейная связь между и отсутствует; <0,3 - связь слабая; 0,3<0,7 - связь умеренная; 0,7<0,9 - связь сильная; 0,9<0,99 - связь весьма сильная.

Положительное значение коэффициента свидетельствует о том, то связь между признаками прямая (с ростом увеличивается значение ), отрицательное значение - связь обратная (с ростом значение уменьшается).

Построение линейной регрессии сводится к оценке ее параметров и Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака от теоретических минимальна, т.е.

Для линейной регрессии параметры и находятся из системы нормальных уравнений:

Решая систему, находим в на

и параметр

Коэффициент при факторной переменной показывает, насколько изменится в среднем величина при изменении фактора на единицу измерения.

Параметр когда Если не может быть равен 0, то не имеет экономического смысла. Интерпретировать можно только знак при если то относительное изменение результата происходит медленнее, чем изменение фактора, т.е. вариация результата меньше вариации фактора и наоборот.

Для оценки качества построенной модели регрессии можно использовать коэффициент детерминации либо среднюю ошибку аппроксимации .

К оэффициент детерминации

Или

показывает долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака Соответственно, величина характеризует долю дисперсии показателя вызванную влиянием неучтенных в модели факторов и прочих причин.

Чем ближе к 1, тем качественнее регрессионная модель, т.е. построенная модель хорошо аппроксимирует исходные данные.

Средняя ошибка аппроксимации - это среднее относительное отклонение теоретических значений от фактических т.е.

Построенное уравнение регрессии считается удовлетворительным, если значениене превышает 10-12%.

Для линейной регрессии средний коэффициент эластичности находится по формуле:

Средний коэффициент эластичности показывает на сколько процентов в среднем по совокупности изменится результат от своей величины при изменении фактора на 1% от своего значения.

Оценка з начимост и уравнения регрессии в целом дается с помощью -критерия Фишера, который заключается в проверке гипотезы о статистической незначимости уравнения регрессии. Для этого выполняется сравнениефактич е ского и критического (табличного) значений - критерия Фишера.

определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы, т.е.

- максимально возможное значение критерия под влиянием случайных факторов при степенях свободы =1, =-2 и уровне значимости находится из таблицы -критерия Фишера (таблица 1 приложения).

Уровень значимости - это вероятность отвергнуть правильную гипотезу при условии, что она верна.

Если то гипотеза об отсутствии связи изучаемого показателя с фактором отклоняется и делается вывод о существенности этой связи с уровнем значимости (т.е. уравнение регрессии значимо).

Если то гипотеза принимается и признается статистическая незначимость и ненадежность уравнения регрессии.

Для линейной регрессии значимость коэффициентов регрессии оценивают с помощью - критерия Стьюдента, согласно которому выдвигается гипотеза о случайной природе показателей, т.е. о незначимом их отличии от нуля. Далее рассчитываются фактические значения критерия для каждого из оцениваемых коэффициентов регрессии, т.е.

где и - стандартные ошибки параметров линейной регрессии определяются по формулам:

- максимально возможное значение критерия Стьюдента под влиянием случайных факторов при данной степени свободы =-2 и уровне значимости находится из таблицы критерия Стьюдента (таблица 2 приложения).

Если то гипотеза о несущественности коэффициента регрессии отклоняется с уровнем значимости т.е. коэффициент ( или )не случайно отличается от нуля и сформировался под влиянием систематически действующего фактора

Если то гипотеза не отклоняется и признается случайная природа формирования параметра.

Значимость линейного коэффициента корреляции также проверяется с помощью - критерия Стьюдента, т.е.

Гипотеза о несущественности коэффициента корреляции отклоняется с уровнем значимости если

Замечание. Для линейной парной регрессии проверки гипотез о значимости коэффициента и коэффициента корреляции равносильны проверке гипотезы о существенности уравнения регрессии в целом, т.е.

Для расчета доверительного интервала определяют предельную ошибку для каждого показателя, т.е.

Доверительные интервалы для коэффициентов линейной регрессии:

Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, т.к. он не может одновременно принимать и положительное, и отрицательное значения.

Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего прогнозного значения Затем вычисляется средняя стандартная ошибка прогноза

где

и строится доверительный интервал прогноза

Интервал может быть достаточно широк за счет малого объема наблюдений.

Регрессии, нелинейные по включенным переменным , приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью МНК.

Г ипербол ическая регрессия:

Р егрессии , нелинейны е по оцениваемым параметрам , делятся на два типа: внутренне нелинейные и т.п. (к линейному виду не приводятся) и внутренне линейные (приводятся к линейному виду с помощью соответствующих преобразований), например:

Экспоненциальная регрессия:

Линеаризующее преобразование:

Степенная регрессия:

Линеаризующее преобразование:

Показатель ная регрессия:

Линеаризующее преобразование:

Логарифмическ ая регрессия:

Линеаризующее преобразование:

2. Решение типовых задач

Пример 9 .1 . По 15 сельскохозяйственным предприятиям (табл. 9.1) известны: - количество техники на единицу посевной площади (ед/га) и - объем выращенной продукции (тыс. ден. ед.). Необходимо:

1) определить зависимость от

2) построить корреляционные поля и график уравнения линейной регрессии на

3) сделать вывод о качестве модели и рассчитать прогнозное значение при прогнозном значении составляющем 112% от среднего уровня.

Таблица 9.1

Решение:

1) В Excel составим вспомогательную таблицу 9.2.

Таблица 9.2

Рис. 9 .1. Таблица для расчета промежуточных значений

Вычислим количество измерений Для этого в ячейку В19 поместим =СЧЁТ(A2:A 16 ) .

С помощью функции ∑ (Автосумма) на панели инструментов Стандар т ная найдем сумму всех (ячейка В17 ) и (ячейка С17 ).

Рис. 9.2. Расчет суммы значений и средних

Для вычисления средних значений используем встроенную функцию MS Excel СРЗНАЧ(), в скобках указывается диапазон значений для определения средней. Таким образом, средний объем выращенной продукции по 15 хозяйствамсоставляет 210,833 тыс.ден. ед., а средние количество техники - 6,248ед/га.

Для заполнения столбцов D , E , F введем формулувычисления произведения: в ячейку D 2 поместим =B2*C2 , затем на клавиатуре нажмем ENTER. Щелкнем левой кнопкой мыши по ячейке D 2 и, ухватив за правый нижний угол этой ячейки (черный плюсик), потянем вниз до ячейки D 16 . Произойдет автоматическое заполнение диапазона D 3 - D 16 .

Для вычисления выборочн ой ковариации между и используем формулу т.е. в ячейку B 21 поместим =D 18- B 18* C 18 и получим 418,055 (рис. 9.3).

Рис. 9 .3. Вычисление

Выборочн ую дисперси ю для найдем по формуле для этого в ячейку B 22 поместим =E18-B18 ^2 (^- знак указывающий возведение в степень) и получим 11,337. Аналогично определяем =16745,05556 (рис. 9.4)

Рис. 9 .4. Вычисление Var (x ) и Var (y )

Далее используя стандартную функцию MS Excel «КОРРЕЛ» вычисляем значение линейного коэффициента корреляции для нашей задачи функция будет иметь вид «=КОРРЕЛ(B2:B16;C2:C16)», а значение rxy=0,96. Полученное значение коэффициента корреляции указывает на прямую и сильную связь наличия техники и объемов выращенной продукции.

Находим в ыборочный коэффициент линейной регрессии =36,87; параметр =-17,78. Значит, уравнение парной линейной регрессии имеет вид =-17,78+36,87

Коэффициент показывает, что при увеличении количества техники на 1 ед/га объем выращенной продукции в среднем увеличится на 36,875 тыс. ден. ед. (рис. 9.5)

Рис. 9 .5. Расчет параметров уравнения регрессии.

Таким образом, уравнение регрессии будет иметь вид: .

Подставляем в полученное уравнение фактические значения x (количество техники) находим теоретические значения объемов выращенной продукции (рис. 9.6).

Рис. 9 .6. Расчет теоретических значений объемов выращенной продукции

Используя Мастер диаграмм строим корреляционные поля (выделяя столбцы со значениями и ) и уравнение линейной регрессии (выделяя столбцы со значениями и ). Выбираем тип диаграммы - Т очечная В полученной диаграмме заполняем нужные параметры (название, подписи к осям, легенду и т.п.). В результате получим график представленный на рис. 9.7.

Рис. 9 .7. График зависимости объема выращенной продукции от количества техники

Для оценки качества построенной модели регрессии вычислим:

. к оэффициент детерминации =0,92, который показывает, что изменение затрат на выпуск продукции на 92% объясняется изменением объема произведенной продукции а 8% приходится на долю неучтенных в модели факторов, что указывает на качественность построенной регрессионной модели;

. с редн юю ошибк у аппроксимации . Для этого в столбце H вычислим разность фактического и теоретического значений а в столбце I - выражение . Обращаем Ваше внимание, что для вычисления значения по модулю используется стандартная функция MS Excel «ABS». При умножении среднего значения (ячейка I 18 ) на 100% получим 18,2%. Следовательно, в среднем теоретические значенияотклоняются от фактических на 18,2%(рис. 1.8).

С помощью -критерия Фишераоценим з начимост ь уравнения регре с сии в целом : 150,74.

На уровне значимости 0,05 =4,67 определяем c помощью встроенной статистической функции FРАСПОБР (рис. 1.9). При этом необходимо помнить, что «Степени_свободы1» это знаменатель , а «Степени_свободы2» - числитель , где - число параметров в уравнении регрессии (у нас 2), n - число исходных пар значений (у нас 15).

Так как то уравнение регрессии значимо при =0,05.

Рис. 9 .8. Определение коэффициента детерминации и средней ошибки апроксимации

Рис. 9 . 9 . Диалоговое окно функции FРАСПОБР

Далее определяем с редний коэффициент эластичности по формуле. Найденное показывает, что с ростом объема произведенной продукции на 1% затраты на выпуск этой продукции в среднем по совокупности возрастут на 1,093%.

Рассчитаем прогнозное значение путем подстановки в уравнение регрессии =-19,559+36,8746 прогнозного значения фактора =1,12=6,248*1,12=6,9978. Получим =238,48. Следовательно, при количестве техники в количестве 6,9978ед/гаобъем выпущенной продукции составит 238,48 тыс. ден. ед.

Найдем остаточную дисперсию, для этого вычислим сумму квадратов разности фактического и теоретического значений. =39,166 поместив следующую формулу =КОРЕНЬ(J17/(B19-2)) в ячейку H 2 1 (рис. 9.10).

Рис. 9 .10. Определение остаточной дисперсии

С редн яя стандартн ая ошибка прогноза :

На уровне значимости =0,05 с помощью встроенной статистической функции СТЬЮДРАСПОБР определим =2,1604 и вычислим предельную ошибку прогноза, которая в 95% случаев не будет превышать .

Д оверительный интервал прогноза :

Или .

Выполненный прогноз затрат на выпуск продукции оказался надежным (1-0,05=0,95), но неточным, так как диапазон верхней и нижней границ доверительного интервала составляет раза. Это произошло за счет малого объема наблюдений.

Необходимо отменить, что в MS Excel встроены статистические функции позволяющие значительно снизить количество промежуточных вычислений, например (рис. 9.11.):

Для вычисления в ыборочны х средни х используем функцию СРЗНАЧ(число1:число N ) из категории Статистические .

Выборочная ковариация между и находится с помощью функции КОВАР(массив X ;массив Y ) из категории Статистические .

Выборочн ые дисперси и определяются статистической функцией ДИСПР(число1:число N ) .

Рис. 9 .11. Вычисление п оказателей встроенными функциями MS Excel

П араметр ы линейной регрессии в Excel можно определить несколькими способами.

1 способ) С помощью встроенной функции ЛИНЕЙН . Порядок действий следующий:

1. Выделить область пустых ячеек 5x2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики или область 1x2 - для получения только коэффициентов регрессии.

2. С помощью Мастера функций среди Статистических выбрать функцию ЛИНЕЙН и заполнить ее аргументы (рис. 9.12):

Рис. 9 . 12 . Диалоговое окно ввода аргументов функции ЛИНЕЙН

Известные_значения_ y

Известные_значения_ x

Конст - логическое значение (1 или 0), которое указывает на наличие или отсутствие свободного члена в уравнении; ставим 1;

Статистика - логическое значение (1 или 0), которое указывает, выводить дополнительную информацию по регрессионному анализу или нет; ставим 1.

3. В левой верхней ячейке выделенной области появится первое число таблицы. Для раскрытия всей таблицы нужно нажать на клавишу < F 2> , а затем - на комбинацию клавиш < CTRL > + < SHIFT > + < ENTER > .

Дополнительная регрессионная статистика будет выведена в виде (табл. 9.3):

Таблица 9.3

Значение коэффициента

Значение коэффициента

Среднеквадратическое
отклонение

Среднеквадратическое
отклонение

Коэффициент
детерминации

Среднеквадратическое
отклонение

Статистика

Число степеней свободы

Регрессионная сумма квадратов

Остаточная сумма квадратов

В результате применения функции ЛИНЕЙН получим:

( 2 способ) С помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительные интервалы, остатки, графики подбора линий регрессии, графики остатков и нормальной вероятности. Порядок действий следующий:

1. Необходимо проверить доступ к Пакету анализа . Для этого в главном меню (через кнопку Microsoft Office получить доступ к параметрам MS Excel) в диалоговом окне «Параметры MS Excel » выбрать команду «Надстройки» и справа выбрать надстройку Пакета анализ а далее нажать кнопку «Перейти» (рис. 9.13). В открывшемся диалоговом окне поставить галочку напротив «Пакет анализа» и нажать «ОК» (рис. 9.14).

На вкладке «Данные» в группе «Анализ» появится доступ к установленной надстройке. (рис. 9.15).

Рис. 9 .13. Включение надстроек в MS Excel

Рис. 9 .14. Диалоговое окно «Надстройки»

Рис. 9 .15. Надстройка «Анализ данных» на ленте MS Excel 2007 .

2. Выбрать на «Данные» в группе «Анализ» выбираем команду Анализ да н ных в открывшемся диалоговом окне выбрать инструмент анализа «Регрессия» и нажать «ОК» (рис. 9.16):

Рис. 9 .16. Диалоговое окно «Анализ данных»

В появившемся диалоговом окне (рис. 9.17) заполнить поля:

Входной интервал Y - диапазон, содержащий данные результативного признака Y;

Входной интервал X - диапазон, содержащий данные объясняющего признака X;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Конст анта-ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

Новый рабочий лист - можно задать произвольное имя нового листа, на который будут выведены результаты.

Рис. 9 .17. Диалоговое окно «Регрессия»

Для получения информации об остатках, графиков остатков, подбора и нормальной вероятности нужно установить соответствующие флажки в диалоговом окне.

Рис. 9 . 18 . Результаты применения инструмента Регрессия

В MS Excel линия тренда может быть добавлена в диаграмму с областями гистограммы или в график. Для этого:

1. Необходимо выделить область построения диаграммы и в ленте выбрать «Макет» и в группе анализ выбрать команду «Линия тренда» (рис. 9.19.). В выпадающем пункте меню выбрать «Дополнительные параметры линии тренда».

Рис. 1.19. Лента

2. В появившемся диалоговом окне выбрать фактические значения, затем откроется диалоговое окно «Формат линии тренда» (рис. 9.20.) в котором выбирается вид линии тренда и устанавливаются соответствующие параметры.

Рис. 9 . 20 . Диалоговое окно «Формат линии тренда»

Для полиноминального тренда необходимо задать степень аппроксимирующего полинома, для линейной фильтрации - количество точек усреднения.

Выбираем Линейная для построения уравнения линейной регрессии.

В качестве дополнительной информации можно показать уравнение на ди а грамме и поместить на диаграмму величину (рис.9.21).

Рис. 9 . 21 . Линейный тренд

Нелинейные модели регрессии иллюстрируются при вычислении параметров уравнения с применением выбранной в Excel статистической функции Л ГРФПРИБЛ . Порядок вычислений аналогичен применению функции ЛИНЕЙН.

100 р бонус за первый заказ

Выберите тип работы Дипломная работа Курсовая работа Реферат Магистерская диссертация Отчёт по практике Статья Доклад Рецензия Контрольная работа Монография Решение задач Бизнес-план Ответы на вопросы Творческая работа Эссе Чертёж Сочинения Перевод Презентации Набор текста Другое Повышение уникальности текста Кандидатская диссертация Лабораторная работа Помощь on-line

Узнать цену

Парной регрессией называется уравнение связи двух переменных

у и х Вида y = f (x ),

где у - зависимая переменная (результативный признак);

х - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.

Метод наименьших квадратов МНК

Для оценки параметров регрессий, линейных по этим параметрам, используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических значений ŷx при тех же значениях фактора x минимальна, т. е.

5. Оценка статистической значимости показателей корреляции, параметров уравнения парной линейной регрессии, уравнения регрессии в целом.

6. Оценка степени тесноты связи между количественными переменными. Коэффициент ковариации. Показатели корреляции: линейный коэффициент корреляции, индекс корреляции (= теоретическое корреляционное отношение).

Коэффициент ковариации

Мч(у) - Т.е. получим корреляционную зависимость.

Наличие корреляционной зависимости не может ответить на вопрос о причине связи. Корреляция устанавливает лишь меру этой связи, т.е. меру согласованного варьирования.

Меру взаимосвязи му 2 мя переменными можно найти с помощью ковариации.

, ,

Величина показателя ковариации зависит от единиц в γ измеряется переменная. Поэтому для оценки степени согласованного варьирования используют коэффициент корреляции - безразмерную характеристику имеющую определенный пределы варьирования..

7. Коэффициент детерминации. Стандартная ошибка уравнения регрессии.

Коэффициент детерминации (rxy2) - характеризует долю дисперсии результативного признака y, объясняемую дисперсией, в общей дисперсии результативного признака. Чем ближе rxy2 к 1, тем качественнее регрессионная модель, то есть исходная модель хорошо аппроксимирует исходные данные.

8. Оценка стат значимости показателей корр-ии, параметров уравнения парной линейной регрессии, уравнения регрессии в целом: t -критерий Стьюдента, F -критерий Фишера.

9. Нелинейные модели регрессии и их линеаризация.

Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно исключенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.

Примеры регрессий, нелинейных по объясняющим переменным , но линейных по оцениваемым параметрам:


Нелинейные модели регрессии и их линеаризация

При нелинейной зависимости признаков, приводимой к линейному виду, параметры множественной регрессии также определяются по МНК с той лишь разницей, что он используется не к исходной информации, а к преобразованным данным. Так, рассматривая степенную функцию

,

мы преобразовываем ее в линейный вид:

где переменные выражены в логарифмах.

Далее обработка МНК та же: строится система нормальных уравнений и определяются неизвестные параметры. Потенцируя значение , находим параметр a и соответственно общий вид уравнения степенной функции.

Вообще говоря, нелинейная регрессия по включенным переменным не таит каких-либо сложностей в оценке ее параметров. Эта оценка определяется, как и в линейной регрессии, МНК. Так, в двухфакторном уравнении нелинейной регрессии

может быть проведена линеаризация, введением в него новых переменных . В результате получается четырехфактороное уравнение линейной регрессии

10.Мультиколлинеарность. Методы устранения мультиколлинеарности.

Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью . Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности.

Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК).

Включение в модель мультиколлинеарных факторов нежелательно по следующим причинам:

ü затрудняется интерпретация параметров множественной регрессии; параметры линейной регрессии теряют экономический смысл;

ü оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений, что делает модель непригодной для анализа и прогнозирования

Методы устранения мультиколлинеарности

- исключение переменной (ых) из модели;

Однако нужна определенная осмотрительность при применении данного метода. В этой ситуации возможны ошибки спецификации.

- получение дополнительных данных или построение новой выборки;

Иногда для уменьшения мультиколлинеарности достаточно величить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных уменьшает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серъезными издержками. Кроме того, такой подход может увеличить

автокорреляцию.

- изменение спецификации модели;

В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо меняется форма модели, либо добавляются новые объясняющие переменные, не учтенные в модели.

- использование предварительной информации о некоторых параметрах;

11.Классическая линейная модель множественной регр-ии (КЛММР). Определение параметров ур-я множественной регр-ии методом наим квадратов.

Парная линейная регрессия

Предварительные расчеты :

;
;
;
;
;

;
.

Построение таблицы вида

Среднее значение

Формулы для расчетов параметров:

,
.

Линейн

Оценка тесноты связи :

а) коэффициент корреляции
, или
;

При компьютерном подборе использовать встроенную функцию Коррел

б) коэффициент эластичности
;

в) коэффициент детерминации .

Оценка значимости уравнения регрессии в целом:

Предварительные расчеты с построением таблицы вида

а) F -критерий Фишера при числе степеней свободы
и
и уровне значимости 0,05 смотреть в таблице. Расчетное значение критерия:

.

Если расчетное значение F- критерия больше табличного, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется, и делается вывод о существенности этой связи.

б) Средняя ошибка аппроксимации

.

Оценка значимости параметров регрессии:

а) Стандартная ошибка параметра a рассчитывается по формуле

, где
.

б) Стандартная ошибка коэффициента регрессии b рассчитывается по формуле

.

в) Стандартная ошибка коэффициента корреляции рассчитывается по формуле

.

t -критерий Стъюдента при числе степеней свободы
и уровне значимости 0,05 смотреть в таблице.

Фактические значения t -статистики:

,
,
.

Если фактическое значение по абсолютной величине превышает табличное, гипотезу о несущественности параметра регрессии можно отклонить, параметр признается значимым.

Связь между F -критерием Фишера и t -критерием Стъюдента выражается равенством

.

Расчет доверительных интервалов для параметров регрессии:

Доверительный интервал для параметра a определяется как
;

доверительный интервал для коэффициента регрессии определяется как
.

При компьютерном анализе использовать в Excel Сервис/Анализ данных/Регрессия.

Интервальный прогноз на основе линейного уравнения регрессии:

Пусть – прогнозное значение факторного признака;
– точечный прогноз результативного признака. Тогда

а) средняя ошибка прогноза :

;

б) доверительный интервал прогноза

с помощью табличного редактора MS Excel

Активизация надстройки Пакет анализа

Для активизации надстройки Пакет анализа необходимо выполнить следующие действия:

1. Выбрать команду Сервис/Надстройки.

2. В появившемся диалоговом окне установить флажок Пакет анализа.

В соответствии с вариантом задания, используя статистический материал, необходимо :

2. Оценить тесноту связи зависимой переменной (результативного фактора) с объясняющей переменной с помощью показателей корреляции и детерминации.

3. Оценить с помощью F -критерия Фишера статистическую надежность моделирования.

4. Оценить статистическую значимость параметров регрессии и корреляции.

5. Определить среднюю ошибку аппроксимации.

6. Используя коэффициент эластичности, выполнить количественную оценку влияния объясняющего фактора на результат.

7. Выполнить точечный и интервальный прогноз результативного признака при увеличении объясняющего признака на 25% от его среднего значения (достоверность прогноза 95%).

8. На одной диаграмме изобразить поле корреляции исходных данных и прямую регрессии.

Пример

Имеются данные о годовой цене программы «Мастер делового администрирования» и числе слушателей в образовательном учреждении.

I. Вводим исходные данные в документ Excel .

II. Вызываем надстройку Анализ данных в меню Сервис.

III. Выбираем инструмент Регрессия .

IV. Заполняем соответствующие позиции окна Регрессия.

V. После нажатия Ок получаем протокол решения задачи.

VI. Анализируем полученный протокол.

1) Коэффициент регрессии ;

Свободный член уравнения регрессии
.

Примечание . При необходимости результаты округляются с нужной точностью. Требование по округлению можно провести изначально, задав количество знаков после запятой в меню Формат ячейки.

Уравнение парной линейной регрессии имеет вид: .

2) Коэффициент корреляции
, что свидетельствует о тесной связи признаковy и x . Коэффициент детерминации
. Полученное уравнение регрессии объясняет 53% вариации признакаy , остальные 47% изменчивости этого признака обусловлены влиянием неучтенных в модели факторов.

3) Оценим статистическую значимость (надежность моделирования) уравнения в целом. Расчетное значение критерия Фишера указано в протоколе,
. Критическое значение этого критерия можно найти с помощь статистической функцииF РАСПОБР табличного редактора Е xcel .

Входными параметрами этой функции являются:

– уровень значимости (вероятность), имеется в виду вероятность ошибки отвергнуть верную гипотезу о статистической незначимости построенного уравнения регрессии. Как правило, выбирают уровень значимости, равный 0,05 или 0,01;

– число степеней свободы 1 – совпадает с количеством параметров при переменной в уравнении регрессии, для парной линейной регрессии
это число равно единице;

– число степеней свободы 2 равно для парной линейной регрессии
, гдеn – объем исходных статистических данных.

Выполняем действия Вставка/Функция , выбираем нужное.

Поскольку расчетное значение F-критерия больше табличного, равного 4,84, нулевая гипотеза об отсутствии значимой связи признаков x и y отклоняется и делается вывод о существенности этой связи.

4) Оценим статистическую значимость параметров a и b в уравнении регрессии с помощью t - критерия Стъюдента.

Расчетные значения статистики Стъюдента
,
. Соответствующее табличное значение можно определить через статистическую функциюСТЪЮДРАСПОБР , число степеней свободы равно
.

Поскольку фактические значения по абсолютной величине превышают табличное, равное 2,2, гипотезу о несущественности параметров регрессии можно отклонить.

5) Определим среднюю ошибку аппроксимации,
. Понадобится выполнение вспомогательных расчетов, оформленных в виде таблицы.

Таким образом, средняя ошибка аппроксимации по данному уравнению регрессии составляет 12,66%, модель парной линейной регрессии можно признать удовлетворительной и пригодной для прогнозирования.

6) Выполним количественную оценку влияния фактора x на фактор y , используя коэффициент эластичности. Для парной линейной регрессии его можно найти по формуле
. Имеем

.

Следовательно, при увеличении количества слушателей на 1% годовая цена уменьшится на 0,4%.

7) Выполним расчет прогноза y при увеличении фактора x на 25% от среднего.

Прогнозное значение .

Точечный прогноз признака y : .

Средняя ошибка прогноза равна ,

где
– остаточная дисперсия,
–дисперсия фактораx .

Численное значение суммы
в протоколе обозначено как остаточноеSS.

Тогда
,
.

Самый быстрый способ получения вспомогательных характеристик – среднего значения фактораx и - дисперсии, воспользоваться инструментомОписательная статистика в пакете Анализ данных.

Протокол вывода результатов имеет вид

Доверительный интервал прогноза: , где– соответствующее табличное значение критерия Стъюдента (найдено ранее по функцииСТЪЮДРАСПОБР ,
).

Следовательно,

т.е. можно быть уверенным на 95%, что цена годового курса при 35 слушателях будет варьироваться в указанных пределах (при точечном прогнозе цены в 3,65825 тыс. долл.).

8) Для построения диаграммы выполним следующие действия:

Шаг 1 Вставка/ Диаграмма/График

Шаг 3 Ряд/Добавить/Значения/ Выделить столбец регрессионных значений фактора – .

Шаг 4 Подписи оси X / Выделить столбец значений x .

Шаг 4 Каждому из рядов присвоить имя, подписать оси координат и название диаграммы.

Примечание.

Для построения диаграммы значения фактора x должны быть отсортированы по возрастанию с сохранением соответствующего значения y . Это может быть сделано так Данные/Сортировка/ Выделить столбец, в котором необходимо сделать сортировку. Например,

Задания для самостоятельной работы

Вариант 1

x

y

Вариант 2

x – энерговооруженность на 10-ти предприятиях, кВт;

y – производительность труда, тыс. руб.

Вариант 3

x – качество земли, баллы;

y – урожайность, ц/га.

Вариант 4

x – качество земли, баллы;

y – урожайность, ц/га.

Вариант 5

x – товарооборот;

y –издержки обращения по отношению к товарообороту.

Вариант 6

x – электровооруженность на одного рабочего;

y – выпуск готовой продукции на одного рабочего.

Вариант 7

x –уровень доходов семьи;

y – расходы на продукты питания (в расчете на 100 руб. доходов).




Top