рефераты бесплатно
 

МЕНЮ


Основы статистического анализа (реферат).

частотами, т.е. совокупность характеризуется двумя значениями моды. В этом

случае для дальнейшего исследования выбирают моду, близкую к

среднеарифметическому значению.

Различно рассчитывают значение моды для дискретного и интервального ряда.

И более того- для дискретного ряда не всегда можно определить значение

моды, т.к. может существовать несколько наблюдений с равными и

максимальными частотами. Поэтому часто необходимо моду определять, приведя

совокупность к интервальному виду. Но тогда, сначала, как и в случае

расчета медианы, необходимо определить модальный интервал. Модальный

интервал имеет наибольшую частоту. А внутри этого интервала мода

определяется как

где:

Моинт - мода интервального ряда,

h - величина интервала интервального ряда,

(xmin) k - нижняя граница модального интервала,

mk - частота модального интервала,

mk-1 - частота интервала, предшествующего модальному,

mk+1 - частота интервала, следующего за модальным,

k - номер модального интервала.

Для однородной совокупности характерна близость значений Xa, Ме и Мо.

Вычисления.

Xi 1470 2006 2030 2073 2305 2444 2535 2625 2710 N

mi 1 1 1 1 1 1 1 1 1 9

Табл. 3

№№ X min X max Xi m1 ni Mi

1 2 3 4 5 6

1 1300 1700 1500 1 0,111 1

2 1700 2100 1900 3 0,333 4

3 2100 2500 2300 2 0,222 6

4 2500 2900 2700 3 0,333 9

Табл. 4

Определим значение Ме.

Для определения моды - Мо - также используем теже данные.

k=2

h=400

=2100

mk=m2=3

mk-1=m2-1=m1=1

mk+1=m2+1=m3=2

Оценки Xa Ме Мо

Дискретные 2244 2305 ------

Взвешенные 2244 2305 ------

Интервальные 2211 2567 2367

Табл. 5

1.5. Вычисление характеристик меры и степени вариации .

1.0 Показатели колеблемости (вариации).

Общие положения.

Средние величины характеризуют вариационный ряд одним числом. Но тогда эти

характеристики не отражают изменчивости признака , не учитывают вариацию

признака в данной совокупности.

В статистике принято несколько способов измерения вариации.

Самая простая оценка - вариационный размах.

R - вариационный размах - определяется как разность между экстремальными

значениями ранжированной совокупности, где Xmax - наибольшее значение ,

Xmin - наименьшее значение совокупности.

Размах во многом зависит от случайных обстоятельств, различен для разных

выборок одного признака , а потому может быть применен как

приблизительная, неустойчивая оценка вариации.

Более значимой является простое среднее отклонение.

Простое среднее отклонение является средним арифметическим отклонением (по

абсолютной величине) отдельных значений (вариант) от общего

среднеарифметического,

где

xi - отдельное значение совокупности,

дискр, взв - среднеарифметическое значение совокупности,

N- количество наблюдений в совокупности.

Простое отклонение может быть вычислено как дискретное (как показано выше)

и как взвешенное:

Наиболее полной оценкой вариации признака является средний квадрат

отклонения дисперсия 2 - дисперсия - рассчитывается как средний квадрат

отклонений отдельных значений от среднего арифметического.

Как и простое среднее отклонение , дисперсия может быть рассчитана как

дискретная или как взвешенная :

для дискретных значений;

для взвешенных значений.

Эта оценка наиболее часто используется на практике как мера колеблемости

признака. Среднеквадратическое отклонение (или стандарт) представляет

собой квадратный корень из дисперсии. Также как и предыдущие оценки,

стандарт может рассчитываться как дискретный и взвешенный.

Как правило в статистическом анализе выполняются характеристики по

интервальному вариационному ряду. Это вполне относится к вычислению

дисперсии и стандарта, где

- среднеинтервальное значение интервала i ;

mi - частота интервала i ;

2инт - дисперсия интервального вариационного ряда ;

инт - стандартного интервального вариационного ряда ;

Иногда статистический анализ использует и другие формулы расчета , но они

за пределами нашего рассмотрения.

Как покажут дальнейшие исследования, стандартное отклонение необходимо

учитывать при любом статистическом исследовании и анализе. Все эти оценки

являются абсолютными величинами, их выражают в тех же единицах измерения ,

что и значение признака и они характеризуют колеблемость признака. Но

очень часто используют относительные показатели и коэффициенты вариации.

Эти коэффициенты имеют смысл только при положительных значениях признаках.

Коэффициент вариации, величина которой превышает 30%, свидетельствует о

большой колеблемости значений признака в данной совокупности.

Стандартное отклонение часто используется при построении интервального

вариационного ряда.

Учитывая, что чаще всего вариационный ряд укладывается в границе , можно

выбрать интервалы вариационного ряда равными или 2/3 или /2 и

соответственно получить 6 или 9 или 12 интервалов.

Аналогичным образом можно построить 9 или 12 интервалов, если принять

h=2/3 или h= /2 .

При этом практически все значения (98%) совокупности будут включены в

интервальный вариационный ряд.

Вычисления.

Для расчета вариации признака используем исходную совокупность, а также

таблицы №3 и №4.

Простое среднее отклонение можно рассчитать и как взвешенное, что и будет

служить проверкой правильности расчета.

Как видим, интервальные значения отличаются от дискретных. И это

естественно, так как интервальные оценки являются более усредненными.

Простое среднее отклонение - одна из необходимых характеристик при

проведении статистического анализа, и мы будем использовать его в

дальнейшем.

Основные характеристики вариации - дисперсия и стандарты.

Эти характеристики также могут быть вычислены как дискретные, взвешенные и

интервальные.

Как видим, дисперсии, вычисленные с разным усреднением , довольно резко

отличаются друг от друга.

Значения дисперсии позволяют вычислить значения стандартного отклонения.

Стандартное отклонение необходимо для дальнейшего статистического анализа.

Оценки вариации совокупности.

Оценки R 2

Дискретные 1240 310 13553 116

Взвешенные --- 310 13553 116

Интервальные --- 365 169877 412

Табл. 6

средние хар-ки хар - ки вариа - ции

Ме Мо 2 V V

Дискр 2244 2305 ---- 310 13553 116 13.8 5.1

Взв 2244 2305 ---- 310 13553 116 13.8 5.1

Инт 2211 2567 2367 365 169877 412 16.5 18.6

Табл. 7

1.6. Установление возможной подчиненности вариационного

ряда нормальному закону распределения .

Общие положения.

Все характеристики, полученные ранее необходимы для выполнения

поставленной задачи.

Каждая характеристика с какой-то своей стороны определяла имеющуюся

совокупность. Но общее суждение о совокупности можно вынести только,

собрав воедино все соображения.

Любой статистический анализ проходит некоторые, общие по форме, стадии.

Первая стадия- высказывание гипотезы. Гипотезу называют ноль-гипотеза и

обозначают Но. Как правило, гипотеза Но ,- эта гипотеза о том, что мы

ожидаем на данном этапе статистического анализа. Этой гипотезе Но

противостоит другая гипотеза - Н1 ,- конкурирующая гипотеза.

Гипотеза Но, и Н1 могут быть простыми и сложными.

Вторая стадия статистического анализа - проверка правильности высказанной

гипотезы Но. Для этого используются разработанные и принятые в статистике

критерии.

Если критерий удовлетворяется , то можно сказать, что данная совокупность

не противоречит высказанной гипотезе. Здесь важно отметить, что гипотеза

Но не принимается безоговорочно, что есть всегда вероятность принять (или

не принять) гипотезу Но ошибочной.

Если критерий не удовлетворяется, то гипотеза Но отвергается.

Выскажем гипотезу, состоящую в том, что наша одномерная совокупность

подчиняется нормальному закону распределения.

В этом случае можно считать, что совокупность собрана в одинаковых

условиях и все вариации признаки являются воздействия случайностей. Ошибки

измерений носят случайный характер и могут быть описаны кривой нормального

распределения.

В случае согласия с высказанной гипотезой, данная совокупность может быть

принята для дальнейшего анализа, в противном случае надо внимательнее

изучить условия получения значения совокупности и провести наблюдения еще

раз.

В качестве критерия выступает специально разработанные соотношения.

Полученные расчетные значения критериев для данной совокупности

сравниваются со значениями критериев, найденными по таблицам или

специальным соотношением. Сравнение расчетных и табличных значений

позволяет сделать вывод о согласии ( или несогласии) о высказанной

гипотезе.

В случае согласия с высказанной гипотезой статистическое исследование

продолжается , в случае несогласия - возвращается к предыдущему этапу,

т.е. к высказыванию другой гипотезы.

Для данной совокупности высказывается гипотеза Но - о том, что полученное

эмпирическое распределение достаточно хорошо описывается теоретической

кривой нормального распределения.

При этом все значения получены как дискретные, так и интервальные.

Будем рассматривать только интервальные значения, т.к. интервальные

значения являются сглаженными, усредненными и лучше отражают общую

тенденцию совокупности.

В предыдущих частях работы получены:

средние хар-ки хар - ки вариа - ции

Ме Мо 2 V V

Дискр 2244 2305 ---- 310 13553 116 13.8 5.1

Взв 2244 2305 ---- 310 13553 116 13.8 5.1

Инт 2211 2567 2367 365 169877 412 16.5 18.6

Табл. 7

Отсюда видно, что средние характеристики хотя и отличаются по значениям

друг от друга , но различия эти невелики и могут быть результатом

округленней в промежуточных расчетах.

Но в целом можно признать, что эмпирическое распределение соответствует

теоретическому нормальному, имеет подобно нормальному распределению

колоколообразный характер, а средние характеристики близки к друг другу.

Поэтому будем считать, что полученные результаты не противоречат

высказанной гипотезе .

Практически любое статистическое исследование базируется на некоторой

выборке, состоящих из случайных величин.

Под случайной величиной понимается величина, которая в результате опыта

может принять то или иное значение, неизвестно заранее - какое именно.

Различаются случайные величины прерывного (дискретного ) и непрерывного

типа. Возможные значения непрерывных величин не могут быть заранее

перечислены и непрерывно заполняют некоторый промежуток. В дальнейшем

рассматриваются только прерывные (дискретные) величины. Пусть прерывная

случайная величина может принимать значения х1, х2, . . . ,хN.

Каждое из этих значений возможно, но не достоверно, поэтому может принять

каждое из них с некоторой вероятностью pi..

Сумма вероятностей всех возможных значений равна единице.

Суммарная вероятность каким-то образом распределена между отдельными

значениями. Случайная величина будет полностью описана с вероятностной

точки зрения, если будет определенно это распределение.

Указание, какой вероятностью обладает каждое из событий , дает возможность

установить закон распределения случайной величины.

Под законом распределения понимается соотношение, устанавливающее связь

между возможными значениями случайной величины и соответствующим им

вероятностями.

Простейшей формой задания этого закона является таблица соответствий

возможных значений и вероятностей. Такая таблица носит название - ряд

распределения.

Графическое представление - полигон, гистограмма.

Для большого количества наблюдений и большого множества возможных

дискретных значений признака, а также для непрерывных случайных величин

табличное представление оказывается трудоемким или невозможным.

Поэтому, применяется вероятность не отдельного значения события , а

некоторого интервала значений, т.е. применяется функция распределения. Эта

функция иногда называется интегральной функцией распределения или

интегральным законом распределения

Функция - производная функции распределения - характеризует плотность

распределения. Кривая, изображающая плотность распределения случайной

величины, называется кривой распределения.

Особое место в теории занимают распределения распределения : нормальное,

биомиальное и распределение Пуассона.

Нормальное распределение связано с именем Гаусса (конец 18 в) .

В данной работе проверяются гипотезы нормального закона распределения.

Подготовка исходной информации.

Вся совокупность, подлежащая анализу представляется в виде интервального

вариационного ряда.

Интервалы одинаковые и вычисляются по формуле, где X max- наибольшее

значение совокупности;

X min - наименьшее значение совокупности;

N - количество наблюдений.

i X min X max Xi mi ni

1 1300 1700 1500 1 0,111

2 1700 2100 1900 3 0,333

3 2100 2500 2300 2 0,222

4 2500 2900 2700 3 0,333

Табл. 8

Принятые обозначения :

(xmax -xmin) - верхняя и нижняя границы i-го интервала,

xmin - наибольшее значение совокупности входит в первый интервал,

xmax - наибольшее значение совокупности входит в последний,

n-й интервал, n - количество интервалов, i - текущий номер интервала,

i=1,2, . . . ,n,

- среднее значение i- го интервала

mi - частота i - го интервала, абсолютное количество наблюдений, входящих

в i -й интервал.

Контроль правильности расчета :

ni - относительная частота i-го интервала. ,

Контроль правильности расчетов : , 0,999 1

В дальнейшем рассматривается вариационный ряд, состоящий из

среднеинтервальных значений xi и соответствующих значений частоты mi .

Нормальный закон распределения имеет вид :

- среднеквадратическое отклонение :

- среднеарифметическое значение : -

При этом и - параметры нормального закона распределения.

Расчеты.

= 2 10 -4

= 7 10 -4

= 9,6 10 - 4 10 10 - 4

= 4,8 10 - 4 5 10 - 4

Xi f

1500 2 10 - 4

1900 7 10 - 4

2300 10 10 - 4

2700 5 10 - 4

Табл. 9

Кривая нормального закона распределения

Рис 4

II. Анализ двумерной совокупности.

2.1. Корреляционное поле, эллипс рассеянния.

Корреляционной зависимостью можно называть функциональную зависимость

условной (или групповой) средней или обратную ей функцию . При этом

полученное уравнение называют уравнением регрессии.

Если составить так называемую корреляционную решетку, то видна некоторая

размазанность корреляции.

1. Важно отметить, что установление корреляции между признаками не дает

оснований считать эти связи причинно-следственными. Может вполне быть, что

эти признаки зависят еще от каких-то признаков.

Корреляционное поле.

Рис 5

2. Наглядное представление (рис 5) можно получить построив

корреляционное поле (точечная диаграмма)

1-й признак 2-й признак интервал

1470 28,6 1

2006 25,00 2

2030 32,70 2

2078 28,90 2

2305 27,90 3

2444 29,90 3

2535 27,00 4

2625 29,10 4

2710 28,30 4

Табл. 10

Вытянутость корреляционного поля по диагонали свидетельствует о наличии

корреляции между признаками.

3. Если число вариантов велико, то корреляционное поле имеет вид более или

менее правильного эллипса со сгущением точек в центре и сравнительно

редким их расположением на периферии.

Эллипс рассеянния.

Рис 6

Такой эллипс носит название эллипс рассеянния (рис 6). Отклонение осей

эллипса от координатных направлений указывает на наличие корреляции.

Вытянутость говорит только о масштабах по осям.

2.2. Эмпирические линии регрессии.

1. Обычно на одно значение признака приходится несколько значений другого

признака. При этом рассчитывается условное или групповое среднее, так, -

среднее значение y при условии, что x заданная величина.

Тогда о корреляции можно говорить только в том случае, когда изменения при

переходе от xi к xj носят систематический характер. Получим условные

средние:

интервалы min - max

1 1300 1700 1500 2663 2663

2 1700 2100 1900 2508 3269,3

3769

3531

3 2100 2500 2300 3502 3779,5

4057

4 2500 2900 2700 3200 3508

4090

3234

Табл. 11

интервалы min - max

1 25 27 26 2006 2006

2 27 29 28 2305 2219,6

2535

2078

1470

2710

3 29 31 30 2444 2534,5

2625

4 31 33 32 2030 2030

Табл. 12

2. Построим зависимости (; x ) и ( y ;) , и назовем их эмпирическими

линиями регрессии (рис 7)

Зависимость 1-го и 3-го признака

Рис 7

Зависимости (; x ) и ( y ;) , 1-го и 2-го признака (рис 7А)

Зависимость 1-го и 2-го признака

Рис. 7А

Линии не совпадают между собой, что является результатом размазанности

корреляции. В общем случае линии - ломаные, но в простейшем случае -

прямые. Это значит, что средние значения одного признака зависят от

значения другого признака линейно. Такой случай называют линейной

регрессией. Для простоты рассмотрим линейный случай.

3. Как уже указывалось точки, точки изображающие зависимость от x и от y ,

никогда не ложатся на одну прямую. Поэтому речь может идти только о том,

чтобы найти такую прямую, которая проходила наиболее близко ко всем

точкам. Смысл “близости” может быть разным :

а) наилучшая прямая та, при которой max эмпирического отклонения от

расчетного - наименьший. Но тогда наиболее отклоняющаяся точка окажет

большое влияние на определение прямой ;

б) наилучшая прямая та, при которой площадь между ломаной ломаной

эмпирических значений и прямой - наименьшая. Такую считать трудно ;

в) в большинстве случаев целесообразен критерий, при котором требуется

минимизировать сумму квадратов отклонений эмпирических точек от прямой

(метод наименьших квадратов ). При этом отклоняющаяся точка не имеет

решающего значения.

4. Для практических целей могут представлять интерес оба уравнения

регрессии. При размазанности корреляции коэффициенты уравнений не являются

обратными.

5. rxy=ryx , если не размазаны данные.

6. Важной задачей теории корреляции является построение численного

параметра, который давал бы количественное выражение степени или силы

корреляции между признаками.

7. Будем считать, что корреляция тем более сильна, чем теснее точки

корреляционного поля группируются около линии регрессии. И если корреляция

полная (т.е. неучитываемых влияний нет ), то имеем функциональную

зависимость rxy=ryx ,=1.

Если корреляция отсутствует (т.е. y в общем не зависит от x ), то rxy=ryx

,=0 .

8. Корреляционную связь можно считать реальной, если полученный

коэффициент корреляции значимо отличается от нуля. С этой целью используют

таблицы r - распределения.

Если вычисленный коэффициент корреляции превосходит табличное значение для

выбранного уровня значимости при числе степеней свободы f=N-2 , где N -

число испытаний, то его можно считать значимо отличающимся от нуля.

9. Для выполнения анализа необходимо, чтобы коэффициенты были безусловно

значимыми.

10. Если rxy= 0, то это только означает, что не может существовать

линейная корреляционная связь, а криволинейная вполне может.

11. Линейная регрессия и соответствующий коэффициент корреляции можно

представить графически.

2.3. Парный корреляционный анализ ( ЭВМ ) .

В отличии от нелинейной корреляции, где корреляция может быть немонотонной

(т.е. на одних участках возрастающей, а на других убывающей), при линейной

корреляции можно говорить о положительной и отрицательной корреляциях .

Если при увеличении одного признака другой увеличивается, - корреляция

положительна. Если при увеличении одного признака другой уменьшается,

-отрицательная.

В случае эмпирической совокупности точки, изображающие зависимость , ,

никогда не ложатся на одну прямую, поэтому речь может идти о том , чтобы

найти такую линию, которая проходила бы более близко ко всем точкам :

x y y1 y2 y3 y4

32,70 2030 2213,33 2033,82 2050,02 2236,5

28,30 2710 2247,08 2308,58 2319,66 2245,15

28,60 1470 2244,78 2310,75 2311,47 2244,48

29,90 2444 2234,81 2284,8 2242,7 2241,71

25,00 2006 2272,39 2082,85 2059,04 2253,64

28,90 2073 2242,48 2309,86 2299,91 2243,82

27,90 2305 2250,15 2300,94 2324,54 2246,07

29,10 2625 2240,94 2307,57 2290,55 2243,38

27,00 2535 2257,05 2263,84 2305,2 2248,25

Табл. 13

Зависимость 1-го признака от 2-го

Линейная зависимость (y1) Полином второй степени (y2)

Полином третьей степени (y3) Гипербола (y4)

x y y1 y2 y3 y4

2508 2030 1918,75 1816,77 1671,91 1860,63

3200 2710 2173,14 2249,42 2389,68 2204,27

2663 1470 1975,73 1937,17 2060,43 1953,12

4057 2444 2488,18 2410,53 2454,95 2467,36

3769 2006 2382,3 2402,65 2221,06 2392,29

3531 2073 2294,81 2360,79 2252,58 2321,02

3502 2305 2284,15 2353,51 2263,81 2311,67

4090 2625 2500,31 2408,45 2509,76 2475,28

3234 2535 2185,63 2263,71 2378,8 2217,36

Табл. 14

Зависимость 1-го признака от 3-го

Линейная зависимость (y1) Полином второй степени (y2)

Полином третьей степени (y3) Гипербола (y4)

Коэффициенты регрессии: - 133.375 , 33.85114 , 0.415333

Коэффициент множественной корреляции RR=0.550

Коэффициенты регрессии: 1203.347 , 0.428281 , 0.000058

Коэффициент множественной корреляции RR=0.523

В ы в о д ы.

17

Страницы: 1, 2


ИНТЕРЕСНОЕ



© 2009 Все права защищены.