Корреляционно-регрессионный анализ

образом рядов значений изучаемых величин позволяют установить наличие связи

и ее направление. Зависимость между факторами и показателями может

прослеживаться во времени (параллельные динамические ряды).

Метод аналитических группировок тоже относится к простейшим методам. Чтобы

выявить зависимость с помощью этого метода, нужно произвести группировку

единиц совокупности по факторному признаку и для каждой группы вычислить

среднее или относительное значение результативного признака. Сопоставляя

затем изменения результативного признака по мере изменения факторного можно

выявить направление, характер и тесноту связи между ними.

В общем виде задача статистики в области изучения взаимосвязей состоит не

только в количественной оценке их наличия, направления и силы связи, но и в

определении формы (аналитического выражения) влияния факторных признаков на

результативный. Для ее решения применяют методы корреляционного и

регрессионного анализа.

Статистическое моделирование связи методом

корреляционного и регрессионного анализа.

Задачи корреляционного анализа сводятся к измерению тесноты известной связи

между варьирующими признаками, определению неизвестных причинных связей

(причинный характер которых должен быть выяснен с помощью теоретического

анализа) и оценки факторов, оказывающих наибольшее влияние на

результативный признак.

Задачами регрессионного анализа являются выбор типа модели (формы связи),

установление степени влияния независимых переменных на зависимую и

определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного

использования этих методов.

Корреляционный и регрессионный анализ. Исследование связей в условиях

массового наблюдения и действия случайных факторов осуществляется, как

правило, с помощью экономико-статистических моделей. В широком смысле

модель – это аналог, условный образ (изображение, описание, схема, чертёж и

т.п.) какого-либо объекта, процесса или события, приближенно воссоздающий

«оригинал». Модель представляет собой логическое или математическое

описание компонентов и функций, отображающих существенные свойства

моделируемого объекта или процесса, даёт возможность установить основные

закономерности изменения оригинала. В модели оперируют показателями,

исчисленными для качественно однородных массовых явлений (совокупностей).

Выражение и модели в виде функциональных уравнений используют для расчёта

средних значений моделируемого показателя по набору заданных величин и для

выявления степени влияния на него отдельных факторов.

По количеству включаемых факторов модели могут быть однофакторными и

многофакторными (два и более факторов).

В зависимости от познавательной цели статистические модели подразделяются

на структурные, динамические и модели связи.

Двухмерная линейная модель корреляционного и регрессионного анализа

(однофакторный линейный корреляционный и регрессионный анализ). Наиболее

разработанной в теории статистики является методология так называемой

парной корреляции, рассматривающая влияние вариации факторного анализа х на

результативный признак у и представляющая собой однофакторный

корреляционный и регрессионный анализ. Овладение теорией и практикой

построения и анализа двухмерной модели корреляционного и регрессионного

анализа представляет собой исходную основу для изучения многофакторных

стохастических связей.

Важнейшим этапом построения регрессионной модели (уравнения регрессии)

является установление в анализе исходной информации математической функции.

Сложность заключается в том, что из множества функций необходимо найти

такую, которая лучше других выражает реально существующие связи между

анализируемыми признаками. Выбор типов функции может опираться на

теоретические знания об изучаемом явлении, опят предыдущих аналогичных

исследований, или осуществляться эмпирически – перебором и оценкой функций

разных типов и т.п.

При изучении связи экономических показателей производства (деятельности)

используют различного вида уравнения прямолинейной и криволинейной связи.

Внимание к линейным связям объясняется ограниченной вариацией переменных и

тем, что в большинстве случаев нелинейные формы связи для выполнения

расчётов преобразуют (путём логарифмирования или замены переменных) в

линейную форму. Уравнение однофакторной (парной) линейной корреляционной

связи имеет вид:

? = a0 + a1x ,

где ? - теоретические значения результативного признака, полученные по

уравнению регрессии;

a0 , a1 - коэффициенты (параметры) уравнения регрессии.

Поскольку a0 является средним значением у в точке х=0, экономическая

интерпретация часто затруднена или вообще невозможна.

Коэффициент парной линейной регрессии a1 имеет смысл показателя силы связи

между вариацией факторного признака х и вариацией результативного признака

у. Вышеприведенное уравнение показывает среднее значение изменения

результативного признака у при изменении факторного признака х на одну

единицу его измерения, то есть вариацию у, приходящуюся на единицу вариации

х. Знак a1 указывает направление этого изменения.

Параметры уравнения a0 , a1 находят методом наименьших квадратов (метод

решения систем уравнений, при котором в качестве решения принимается точка

минимума суммы квадратов отклонений), то есть в основу этого метода

положено требование минимальности сумм квадратов отклонений эмпирических

данных yi от выравненных ? :

((yi – ?)2 = ((yi – a0 – a1xi)2 ( min

Для нахождения минимума данной функции приравняем к нулю ее частные

производные и получим систему двух линейных уравнений, которая называется

системой нормальных уравнений:

[pic]

Решим эту систему в общем виде:

Параметры уравнения парной линейной регрессии иногда удобно исчислять по

следующим формулам, дающим тот же результат:

Определив значения a0 , a1 и подставив их в уравнение связи ? = a0 + a1x

, находим значения ? , зависящие только от заданного значения х.

Рассмотрим построение однофакторного уравнения регрессии зависимости

работающих активов у от капитала х (см. приложение, таблица 1).

Здесь представлены показатели 32 банков: размер капитала и работающих

активов. Передо мной стоит задача определить, есть ли зависимость между

этими двумя признаками и, если она существует, определить форму этой

зависимости, то есть уравнение регрессии.

За факторный признак я взяла размер капитала банка, а за результативный

признак – работающие активы.

Сопоставление данных параллельных рядов признаков х и у показывает, что с

убыванием признака х (капитал), в большинстве случаев убывает и признак у

(работающие активы).

Следовательно, можно предположить, что между х и у существует прямая

зависимость, пусть неполная, но выраженная достаточно ясно.

Для уточнения формы связи между рассматриваемыми признаками я использовала

графический метод. Я нанесла на график точки, соответствующие значениям х и

у, и получила корреляционное поле (см. приложение, график 1).

Анализируя поле корреляции, можно предположить, что возрастание признака у

идет пропорционально признаку х. В основе этой зависимости лежит

прямолинейная связь, которая может быть выражена простым линейным

уравнением регрессии:

? = a0 + a1x,

где ? - теоретические расчётные значения результативного признака

(работающие активы), полученные по уравнению регрессии;

a0 , a1 - коэффициенты (параметры) уравнения регрессии;

х – капитал исследуемых банков.

Пользуясь вышеуказанными формулами для вычисления параметров линейного

уравнения регрессии и расчётными значениями из таблицы 1, получаем:

[pic]

Следовательно, регрессионная модель зависимости работающих активов от

капитала банков может быть записана в виде конкретного простого уравнения

регрессии:

[pic].

Это уравнение характеризует зависимость работающих активов от капитала

банка. Расчётные значения ? , найденные по этому уравнению, приведены в

таблице 1. Правильность расчёта параметров уравнения регрессии может быть

проверена сравниванием сумм Sу = S? . В моем случае эти суммы равны.

Но для того, чтобы применить мою формулу, надо рассчитать, насколько она

приближенна к реальности, то есть проверить ее адекватность.

Проверка адекватности регрессионной модели.

Для практического использования моделей регрессии большое значение имеет их

адекватность, т.е. соответствие фактическим статистическим данным.

Корреляционный и регрессионный анализ обычно (особенно в условиях так

называемого малого и среднего бизнеса) проводится для ограниченной по

объёму совокупности. Поэтому показатели регрессии и корреляции – параметры

уравнения регрессии, коэффициенты корреляции и детерминации могут быть

искажены действием случайных факторов. Чтобы проверить, насколько эти

показатели характерны для всей генеральной совокупности, не являются ли они

результатом стечения случайных обстоятельств, необходимо проверить

адекватность построенных статистических моделей.

При численности объектов анализа до 30 единиц возникает необходимость

проверки значимости (существенности) каждого коэффициента регрессии. При

этом выясняют насколько вычисленные параметры характерны для отображения

комплекса условий: не являются ли полученные значения параметров

результатами действия случайных причин.

Значимость коэффициентов простой линейной регрессии (применительно к

совокупностям, у которых n

tтабл . В таком случае практически невероятно, что найденные значения

параметров обусловлены только случайными совпадениями.

Теперь я рассчитаю t-критерий Стьюдента для моей модели регрессии.

- это средние квадратические отклонения.

[pic]

Расчетные значения t-критерия Стьюдента:

По таблице распределения Стьюдента я нахожу критическое значение t-критерия

для ?= 32-2 = 30 . Вероятность ? я принимаю 0,05. tтабл равно 2,042. Так

как, оба значения ta0 и ta1 больше tтабл , то оба параметра а0 и а1

признаются значимыми и отклоняется гипотеза о том, что каждый из этих

параметров в действительности равен 0 , и лишь в силу случайных

обстоятельств оказался равным проверяемой величине.

Проверка адекватности регрессионной модели может быть дополнена

корреляционным анализом. Для этого необходимо определить тесноту

корреляционной связи между переменными х и у. Теснота корреляционной связи,

как и любой другой, может быть измерена эмпирическим корреляционным

отношением ?э , когда ?2 (межгрупповая дисперсия) характеризует отклонения

групповых средних результативного признака от общей средней:[pic].

Говоря о корреляционном отношении как о показателе измерения тесноты

зависимости, следует отличать от эмпирического корреляционного отношения –

теоретическое.

Теоретическое корреляционное отношение ? представляет собой относительную

величину, получающуюся в результате сравнения среднего квадратического

отклонения выравненных значений результативного признака ?, то есть

рассчитанных по уравнению регрессии, со средним квадратическим отношением

эмпирических (фактических) значений результативности признака ?:

[pic] ,

где [pic]; [pic].

Тогда [pic].

Изменение значения ? объясняется влиянием факторного признака.

В основе расчёта корреляционного отношения лежит правило сложения

дисперсий, то есть [pic], где [pic] - отражает вариацию у за счёт всех

остальных факторов, кроме х , то есть являются остаточной дисперсией:

[pic][pic].

Тогда формула теоретического корреляционного отношения примет вид:

[pic],

или [pic].

Подкоренное выражение корреляционного выражения представляет собой

коэффициент детерминации (мера определенности, причинности).

Коэффициент детерминации показывает долю вариации результативного признака

под влиянием вариации признака-фактора.

Теоретическое корреляционное выражение применяется для измерения тесноты

связи при линейной и криволинейной зависимостях между результативным и

факторным признаком.

Как видно из вышеприведенных формул корреляционное отношение может

находиться от 0 до 1. Чем ближе корреляционное отношение к 1, тем связь

между признаками теснее.

Теоретическое корреляционное отношение применительно к моему анализу я

рассчитаю двумя способами:

[pic]

Полученное значение теоретического корреляционного отношения

свидетельствует о возможном наличии среднестатистической связи между

рассматриваемыми признаками. Коэффициент детерминации равен 0,62. Отсюда я

заключаю, что 62% общей вариации работающих активов изучаемых банков

обусловлено вариацией фактора – капитала банков (а 38% общей вариации

нельзя объяснить изменением размера капитала).

Кроме того, при линейной форме уравнения применяется другой показатель

тесноты связи – линейный коэффициент корреляции:

[pic],

где n – число наблюдений.

Для практических вычислений при малом числе наблюдений (n?20ч30) линейный

коэффициент корреляции удобнее исчислять по следующей формуле:

[pic].

Значение линейного коэффициента корреляции важно для исследования социально-

экономических явлений и процессов, распределение которых близко к

нормальному. Он принимает значения в интервале: -1? r ? 1.

Отрицательные значения указывают на обратную связь, положительные – на

прямую. При r = 0 линейная связь отсутствует. Чем ближе коэффициент

корреляции по абсолютной величине к единице, тем теснее связь между

признаками. И, наконец, при r = ±1 – связь функциональная.

Используя данные таблицы 1 я рассчитала линейный коэффициент корреляции r.

Но чтобы использовать формулу для линейного коэффициента корреляции

рассчитаем дисперсию результативного признака ?y:

[pic]

Квадрат линейного коэффициента корреляции r2 называется линейным

коэффициентом детерминации. Из определения коэффициента детерминации

очевидно, что его числовое значение всегда заключено в пределах от 0 до 1,

то есть 0 ? r2 ? 1. Степень тесноты связи полностью соответствует

теоретическому корреляционному отношению, которое является более

универсальным показателем тесноты связи по сравнению с линейным

коэффициентом корреляции.

Факт совпадений и несовпадений значений теоретического корреляционного

отношения ? и линейного коэффициента корреляции r используется для оценки

формы связи.

Выше отмечалось, что посредством теоретического корреляционного отношения

измеряется теснота связи любой формы, а с помощью линейного коэффициента

корреляции – только прямолинейной. Следовательно, значения ? и r совпадают

только при наличии прямолинейной связи. Несовпадение этих величин

свидетельствует, что связь между изучаемыми признаками не прямолинейная, а

криволинейная. Установлено, что если разность квадратов ? и r не превышает

0,1 , то гипотезу о прямолинейной форме связи можно считать подтвержденной.

В моем случае наблюдается примерное совпадение линейного коэффициента

детерминации и теоретического корреляционного отношения, что дает мне

основание считать связь между капиталом банков и их работающими активами

прямолинейной.

Показатели тесноты связи, исчисленные по данным сравнительно небольшой

статистической совокупности, могут искажаться действием случайных причин.

Это вызывает необходимость проверки их существенности, дающей возможность

распространять выводы по результатам выборки на генеральную совокупность.

Для оценки значимости коэффициента корреляции r используют t-критерий

Стьюдента, который применяется при t-распределении, отличном от

нормального.

При линейной однофакторной связи t-критерий можно рассчитать по формуле:

[pic],

где (n - 2) – число степеней свободы при заданном уровне значимости ? и

объеме выборки n.

Полученное значение tрасч сравнивают с табличным значением t-критерия (для

? = 0,05 и 0,01). Если рассчитанное значение tрасч превосходит табличное

значение критерия tтабл, то практически невероятно, что найденное значение

обусловлено только случайными колебаниями (то есть отклоняется гипотеза о

его случайности).

Так, для коэффициента корреляции между капиталом и работающими активами

получается:

[pic]

Если сравнить полученное tрасч с критическим значением из таблицы

Стьюдента, где ?=30, а ?=0,01 (tтабл=2,750), то полученное значение t-

критерия будет больше табличного, что свидетельствует о значимости

коэффициента корреляции и существенной связи между капиталом и работающими

активами.

Таким образом, построенная регрессионная модель ?=245,75+1,42x в целом

адекватна, и выводы полученные по результатам малой выборки можно с

достаточной вероятностью распространить на всю гипотетическую генеральную

совокупность.

Экономическая интерпретация параметров регрессии.

После проверки адекватности, установления точности и надежности построенной

модели (уравнения регрессии), ее необходимо проанализировать. Прежде всего

нужно проверить, согласуются ли знаки параметров с теоретическими

представлениями и соображениями о направлении влияния признака-фактора на

результативный признак (показатель).

В рассмотренном уравнении ?=245,75+1,42х , характеризующем зависимость

размера работающих активов (у) от капиталов банков (х), параметр а1>0.

Следовательно, с возрастанием размера капитала банка размер работающих

активов увеличивается.

Из уравнения следует, что возрастание капитала банка на 1 млн рублей

приводит к увеличению работающих активов в среднем на 1,4 млн рублей

(величину параметра а1).

Для удобства интерпретации параметра a1 используют коэффициент

эластичности. Он показывает средние изменения результативного признака при

изменении факторного признака на 1% и вычисляется по формуле, %:

[pic].

В представленном анализе деятельности банков эта величина равна:

[pic]

Это означает, что с увеличением размера капитала на 1% следует ожидать

повышения размера работающих активов банков в среднем на 0,78% .

Этот вывод справедлив только для данной совокупности банков при конкретных

условиях их деятельности.

Если же эти банки и условия считать типичными, то коэффициент регрессии

может быть применен для расчета размера работающих активов по их капиталу и

для других банков.

Имеет смысл вычислить остатки ?i = y – ?, характеризующие отклонение i-х

наблюдений от значений, которые следует ожидать в среднем.

Анализируя остатки, можно сделать ряд выводов о деятельности банков.

Значения остатков (таблица 1, графа 8) имеют как положительные, так и

отрицательные отклонения от ожидаемого. Таким образом выявляются банки,

которые вкладывают больше денежных средств в оборот (положительные

значения), и банки, предпочитающие пускать в оборот небольшую часть своих

денежных средств (отрицательные значения остатков).

В итоге положительные отклонения размеров работающих активов

уравновешиваются отрицательными значениями, то есть получается S?i=0.

Таким образом, в данной работе я установила корреляционную зависимость

показателей 32 российских банков, провела регрессионный анализ и нашла

регрессионную модель данной взаимосвязи показателей.

Полученное уравнение ?=245,75+1,42х позволяет проиллюстрировать зависимость

размера работающих активов банков от размера их капитала.

А также я проверила мою модель на адекватность по критерию Стьюдента,

результат оказался положительным (модель адекватна, т.е. ее можно

применять), а затем дала экономическую оценку этой модели.

И так, с помощью корреляционно-регрессионного анализа, я исследовала

показатели банков.

-----------------------

[pic]

Страницы: 1, 2

МЕНЮ

Корреляционно-регрессионный анализ

ИНТЕРЕСНОЕ