Взвешенная дисперсия определяется по формуле. Дисперсия, виды и свойства дисперсии

Дисперсия случайной величины является мерой разброса значений этой величины. Малая дисперсия означает, что значения сгруппированы близко друг к другу. Большая дисперсия свидетельствует о сильном разбросе значений. Понятие дисперсии случайной величины применяется в статистике. Например, если сравнить дисперсию значений двух величин (таких как результаты наблюдений за пациентами мужского и женского пола), можно проверить значимость некоторой переменной. Также дисперсия используется при построении статистических моделей, так как малая дисперсия может быть признаком того, что вы чрезмерно подгоняете значения.

Шаги

Вычисление дисперсии выборки

  1. Запишите значения выборки. В большинстве случаев статистикам доступны только выборки определенных генеральных совокупностей. Например, как правило, статистики не анализируют расходы на содержание совокупности всех автомобилей в России – они анализируют случайную выборку из нескольких тысяч автомобилей. Такая выборка поможет определить средние расходы на автомобиль, но, скорее всего, полученное значение будет далеко от реального.

    • Например, проанализируем количество булочек, проданных в кафе за 6 дней, взятых в случайном порядке. Выборка имеет следующий вид: 17, 15, 23, 7, 9, 13. Это выборка, а не совокупность, потому что у нас нет данных о проданных булочках за каждый день работы кафе.
    • Если вам дана совокупность, а не выборка значений, перейдите к следующему разделу.
  2. Запишите формулу для вычисления дисперсии выборки. Дисперсия является мерой разброса значений некоторой величины. Чем ближе значение дисперсии к нулю, тем ближе значения сгруппированы друг к другу. Работая с выборкой значений, используйте следующую формулу для вычисления дисперсии:

    • s 2 {\displaystyle s^{2}} = ∑[( x i {\displaystyle x_{i}} - x̅) 2 {\displaystyle ^{2}} ] / (n - 1)
    • s 2 {\displaystyle s^{2}} – это дисперсия. Дисперсия измеряется в квадратных единицах измерения.
    • x i {\displaystyle x_{i}} – каждое значение в выборке.
    • x i {\displaystyle x_{i}} нужно вычесть x̅, возвести в квадрат, а затем сложить полученные результаты.
    • x̅ – выборочное среднее (среднее значение выборки).
    • n – количество значений в выборке.
  3. Вычислите среднее значение выборки. Оно обозначается как x̅. Среднее значение выборки вычисляется как обычное среднее арифметическое: сложите все значения в выборке, а затем полученный результат разделите на количество значений в выборке.

    • В нашем примере сложите значения в выборке: 15 + 17 + 23 + 7 + 9 + 13 = 84
      Теперь результат разделите на количество значений в выборке (в нашем примере их 6): 84 ÷ 6 = 14.
      Выборочное среднее x̅ = 14.
    • Выборочное среднее – это центральное значение, вокруг которого распределены значения в выборке. Если значения в выборке группируются вокруг выборочного среднего, то дисперсия мала; в противном случае дисперсия велика.
  4. Вычтите выборочное среднее из каждого значения в выборке. Теперь вычислите разность x i {\displaystyle x_{i}} - x̅, где x i {\displaystyle x_{i}} – каждое значение в выборке. Каждый полученный результат свидетельствует о мере отклонения конкретного значения от выборочного среднего, то есть как далеко это значение находится от среднего значения выборки.

    • В нашем примере:
      x 1 {\displaystyle x_{1}} - x̅ = 17 - 14 = 3
      x 2 {\displaystyle x_{2}} - x̅ = 15 - 14 = 1
      x 3 {\displaystyle x_{3}} - x̅ = 23 - 14 = 9
      x 4 {\displaystyle x_{4}} - x̅ = 7 - 14 = -7
      x 5 {\displaystyle x_{5}} - x̅ = 9 - 14 = -5
      x 6 {\displaystyle x_{6}} - x̅ = 13 - 14 = -1
    • Правильность полученных результатов легко проверить, так как их сумма должна равняться нулю. Это связано с определением среднего значения, так как отрицательные значения (расстояния от среднего значения до меньших значений) полностью компенсируются положительными значениями (расстояниями от среднего значения до больших значений).
  5. Как отмечалось выше, сумма разностей x i {\displaystyle x_{i}} - x̅ должна быть равна нулю. Это означает, что средняя дисперсия всегда равна нулю, что не дает никакого представления о разбросе значений некоторой величины. Для решения этой проблемы возведите в квадрат каждую разность x i {\displaystyle x_{i}} - x̅. Это приведет к тому, что вы получите только положительные числа, которые при сложении никогда не дадут 0.

    • В нашем примере:
      ( x 1 {\displaystyle x_{1}} - x̅) 2 = 3 2 = 9 {\displaystyle ^{2}=3^{2}=9}
      (x 2 {\displaystyle (x_{2}} - x̅) 2 = 1 2 = 1 {\displaystyle ^{2}=1^{2}=1}
      9 2 = 81
      (-7) 2 = 49
      (-5) 2 = 25
      (-1) 2 = 1
    • Вы нашли квадрат разности - x̅) 2 {\displaystyle ^{2}} для каждого значения в выборке.
  6. Вычислите сумму квадратов разностей. То есть найдите ту часть формулы, которая записывается так: ∑[( x i {\displaystyle x_{i}} - x̅) 2 {\displaystyle ^{2}} ]. Здесь знак Σ означает сумму квадратов разностей для каждого значения x i {\displaystyle x_{i}} в выборке. Вы уже нашли квадраты разностей (x i {\displaystyle (x_{i}} - x̅) 2 {\displaystyle ^{2}} для каждого значения x i {\displaystyle x_{i}} в выборке; теперь просто сложите эти квадраты.

    • В нашем примере: 9 + 1 + 81 + 49 + 25 + 1 = 166 .
  7. Полученный результат разделите на n - 1, где n – количество значений в выборке. Некоторое время назад для вычисления дисперсии выборки статистики делили результат просто на n; в этом случае вы получите среднее значение квадрата дисперсии, которое идеально подходит для описания дисперсии данной выборки. Но помните, что любая выборка – это лишь небольшая часть генеральной совокупности значений. Если взять другую выборку и выполнить такие же вычисления, вы получите другой результат. Как выяснилось, деление на n - 1 (а не просто на n) дает более точную оценку дисперсии генеральной совокупности, в чем вы и заинтересованы. Деление на n – 1 стало общепринятым, поэтому оно включено в формулу для вычисления дисперсии выборки.

    • В нашем примере выборка включает 6 значений, то есть n = 6.
      Дисперсия выборки = s 2 = 166 6 − 1 = {\displaystyle s^{2}={\frac {166}{6-1}}=} 33,2
  8. Отличие дисперсии от стандартного отклонения. Заметьте, что в формуле присутствует показатель степени, поэтому дисперсия измеряется в квадратных единицах измерения анализируемой величины. Иногда такой величиной довольно сложно оперировать; в таких случаях пользуются стандартным отклонением, которое равно квадратному корню из дисперсии. Именно поэтому дисперсия выборки обозначается как s 2 {\displaystyle s^{2}} , а стандартное отклонение выборки – как s {\displaystyle s} .

    • В нашем примере стандартное отклонение выборки: s = √33,2 = 5,76.

    Вычисление дисперсии совокупности

    1. Проанализируйте некоторую совокупность значений. Совокупность включает в себя все значения рассматриваемой величины. Например, если вы изучаете возраст жителей Ленинградской области, то совокупность включает возраст всех жителей этой области. В случае работы с совокупностью рекомендуется создать таблицу и внести в нее значения совокупности. Рассмотрим следующий пример:

      • В некоторой комнате находятся 6 аквариумов. В каждом аквариуме обитает следующее количество рыб:
        x 1 = 5 {\displaystyle x_{1}=5}
        x 2 = 5 {\displaystyle x_{2}=5}
        x 3 = 8 {\displaystyle x_{3}=8}
        x 4 = 12 {\displaystyle x_{4}=12}
        x 5 = 15 {\displaystyle x_{5}=15}
        x 6 = 18 {\displaystyle x_{6}=18}
    2. Запишите формулу для вычисления дисперсии генеральной совокупности. Так как в совокупность входят все значения некоторой величины, то приведенная ниже формула позволяет получить точное значение дисперсии совокупности. Для того чтобы отличить дисперсию совокупности от дисперсии выборки (значение которой является лишь оценочным), статистики используют различные переменные:

      • σ 2 {\displaystyle ^{2}} = (∑( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} ) / n
      • σ 2 {\displaystyle ^{2}} – дисперсия совокупности (читается как «сигма в квадрате»). Дисперсия измеряется в квадратных единицах измерения.
      • x i {\displaystyle x_{i}} – каждое значение в совокупности.
      • Σ – знак суммы. То есть из каждого значения x i {\displaystyle x_{i}} нужно вычесть μ, возвести в квадрат, а затем сложить полученные результаты.
      • μ – среднее значение совокупности.
      • n – количество значений в генеральной совокупности.
    3. Вычислите среднее значение совокупности. При работе с генеральной совокупностью ее среднее значение обозначается как μ (мю). Среднее значение совокупности вычисляется как обычное среднее арифметическое: сложите все значения в генеральной совокупности, а затем полученный результат разделите на количество значений в генеральной совокупности.

      • Имейте в виду, что средние величины не всегда вычисляются как среднее арифметическое.
      • В нашем примере среднее значение совокупности: μ = 5 + 5 + 8 + 12 + 15 + 18 6 {\displaystyle {\frac {5+5+8+12+15+18}{6}}} = 10,5
    4. Вычтите среднее значение совокупности из каждого значения в генеральной совокупности. Чем ближе значение разности к нулю, тем ближе конкретное значение к среднему значению совокупности. Найдите разность между каждым значением в совокупности и ее средним значением, и вы получите первое представление о распределении значений.

      • В нашем примере:
        x 1 {\displaystyle x_{1}} - μ = 5 - 10,5 = -5,5
        x 2 {\displaystyle x_{2}} - μ = 5 - 10,5 = -5,5
        x 3 {\displaystyle x_{3}} - μ = 8 - 10,5 = -2,5
        x 4 {\displaystyle x_{4}} - μ = 12 - 10,5 = 1,5
        x 5 {\displaystyle x_{5}} - μ = 15 - 10,5 = 4,5
        x 6 {\displaystyle x_{6}} - μ = 18 - 10,5 = 7,5
    5. Возведите в квадрат каждый полученный результат. Значения разностей будут как положительными, так и отрицательными; если нанести эти значения на числовую прямую, то они будут лежать справа и слева от среднего значения совокупности. Это не годится для вычисления дисперсии, так как положительные и отрицательные числа компенсируют друг друга. Поэтому возведите в квадрат каждую разность, чтобы получить исключительно положительные числа.

      • В нашем примере:
        ( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} для каждого значения совокупности (от i = 1 до i = 6):
        (-5,5) 2 {\displaystyle ^{2}} = 30,25
        (-5,5) 2 {\displaystyle ^{2}} , где x n {\displaystyle x_{n}} – последнее значение в генеральной совокупности.
      • Для вычисления среднего значения полученных результатов нужно найти их сумму и разделить ее на n:(( x 1 {\displaystyle x_{1}} - μ) 2 {\displaystyle ^{2}} + ( x 2 {\displaystyle x_{2}} - μ) 2 {\displaystyle ^{2}} + ... + ( x n {\displaystyle x_{n}} - μ) 2 {\displaystyle ^{2}} ) / n
      • Теперь запишем приведенное объяснение с использованием переменных: (∑( x i {\displaystyle x_{i}} - μ) 2 {\displaystyle ^{2}} ) / n и получим формулу для вычисления дисперсии совокупности.

Дисперсия случайной величины - мера разброса данной случайной величины , то есть её отклонения от математического ожидания. В статистике для обозначения дисперсии часто употребляется обозначение (сигма в квадрате). Квадратный корень из дисперсии , равный , называется стандартным отклонением или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

Хотя для оценки всей выборки очень удобно использовать лишь одно значение (такое как среднее значение или моду и медиану), этот подход легко может привести к неправильным выводам. Причина такого положения лежит не в самой величине, а в том, что одна величина никак не отражает разброс значений данных.

Например, в выборке:

среднее значение равно 5.

Однако, в самой выборке нет ни одного элемента со значением 5. Возможно, Вам потребуется знать степень близости каждого элемента выборки к ее среднему значению. Или, другими словами, вам потребуется знать дисперсию значений. Зная степень изменения данных, Вы можете лучше интерпретировать среднее значение , медиану и моду . Степень изменения значений выборки определяется путем вычисления их дисперсии и стандартного отклонения.



Дисперсия и квадратный корень из дисперсии, называемый стандартным отклонением, характеризуют среднее отклонение от среднего значения выборки. Среди этих двух величин наибольшее значение имеет стандартное отклонение . Это значение можно представить как среднее расстояние, на котором находятся элементы от среднего элемента выборки.

Дисперсию трудно интерпретировать содержательно. Однако, квадратный корень из этого значения является стандартным отклонением и хорошо поддается интерпретации.

Стандартное отклонение вычисляется путем определения сначала дисперсии и затем вычисления квадратного корня из дисперсии.

Например, для массива данных, приведенных на рисунке, будут получены следующие значения:

Рисунок 1

Здесь среднее значение квадратов разностей равно 717,43. Для получения стандартного отклонения осталось лишь взять квадратный корень из этого числа.

Результат составит приблизительно 26,78.

Следует помнить, что стандартное отклонение интерпретируется как среднее расстояние, на котором находятся элементы от среднего значения выборки.

Стандартное отклонение показывает, насколько хорошо среднее значение описывает всю выборку.

Допустим, Вы являетесь руководителем производственного отдела по сборке ПК. В квартальном отчете говорится, что выпуск за последний квартал составил 2500 ПК. Плохо это или хорошо? Вы попросили (или уже в отчете есть эта графа) в отчете отобразить стандартное отклонение по этим данным. Цифра стандартного отклонения, например, равна 2000. Становится понятным для Вас, как руководителя отдела, что производственная линия требует лучшего управления (слишком большие отклонения по количеству собираемых ПК).

Вспомним: при большой величине стандартного отклонения данные широко разбросаны относительно среднего значения, а при маленькой – они группируются близко к среднему значению.

Четыре статистические функции ДИСП(), ДИСПР(), СТАНДОТКЛОН() и СТАНДОТКЛОНП() – предназначены для вычисления дисперсии и стандартного отклонения чисел в интервале ячеек. Перед тем как вычислять дисперсию и стандартное отклонение набора данных, нужно определить, представляют ли эти данные генеральную совокупность или выборку из генеральной совокупности. В случае выборки из генеральной совокупности следует использовать функции ДИСП() и СТАНДОТКЛОН(), а в случае генеральной совокупности – функции ДИСПР() и СТАНДОТЛОНП():

Генеральная совокупность Функция

ДИСПР()

СТАНДОТЛОНП()
Выборка

ДИСП()

СТАНДОТКЛОН()

Дисперсия (а так же стандартное отклонение), как мы отмечали, свидетельствуют о том, в какой степени входящие в набор данных величины разбросаны вокруг среднего арифметического.

Малое значение дисперсии или стандартного отклонения говорит о том, что все данные сосредоточены вокруг среднего арифметического, а большое значение этих величин – о том, что данные разбросаны в широком диапазоне значений.

Дисперсию достаточно трудно интерпретировать содержательно (что значит малое значение, большое значение?). Выполнение Задания 3 позволит визуально, на графике, показать смысл дисперсии для набора данных.

Задания

· Задание 1.

· 2.1. Дать понятия: дисперсия и стандартное отклонение; их символьное обозначение при статистической обработке данных.

· 2.2. Оформить рабочий лист в соответствии с рисунком 1 и произвести необходимые расчеты.

· 2.3. Привести основные формулы, используемые при расчетах

· 2.4. Пояснить все обозначения ( , , )

· 2.5. Пояснить практическое значение понятия дисперсия и стандартное отклонение.

Задание 2.

1.1. Дать понятия: генеральная совокупность и выборка; математическое ожидание и среднее арифметическое их символьное обозначение при статистической обработке данных.

1.2. В соответствии с рисунком 2 оформить рабочий лист и произвести расчеты.

1.3. Привести основные формулы, используемые при расчетах (для генеральной совокупности и выборке).

Рисунок 2

1.4. Объяснить, почему возможны получения таких значений средних арифметических в выборках как 46,43 и 48,78 (см. файл Приложение). Сделать выводы.

Задание 3.

Имеется две выборки с различным набором данных, но среднее для них будет одинаковым:

Рисунок 3

3.1. Оформить рабочий лист в соответствии с рисунком 3 и произвести необходимые расчеты.

3.2. Приведите основные формулы расчета.

3.3. Постройте графики в соответствии с рисунками 4, 5.

3.4. Поясните полученные зависимости.

3.5. Аналогичные вычисления проведите для данных двух выборок.

Исходная выборка 11119999

Значения второй выборки подбираете так, что бы среднее арифметическое для второй выборки было таким же, например,:

Подберите значения для второй выборки самостоятельно. Оформите вычисления и построения графиков подобно рисункам 3, 4, 5. Покажите основные формулы, которые использовали при вычислениях.

Сделайте соответствующие выводы.

Все задания оформить в виде отчета со всеми необходимыми рисунками, графиками, формулами и краткими пояснениями.

Примечание: построение графиков обязательно пояснить с рисунками и краткими пояснениями.

Вычислим в MS EXCEL дисперсию и стандартное отклонение выборки. Также вычислим дисперсию случайной величины, если известно ее распределение.

Сначала рассмотрим дисперсию , затем стандартное отклонение .

Дисперсия выборки

Дисперсия выборки (выборочная дисперсия, sample variance ) характеризует разброс значений в массиве относительно .

Все 3 формулы математически эквивалентны.

Из первой формулы видно, что дисперсия выборки это сумма квадратов отклонений каждого значения в массиве от среднего , деленная на размер выборки минус 1.

дисперсии выборки используется функция ДИСП() , англ. название VAR, т.е. VARiance. С версии MS EXCEL 2010 рекомендуется использовать ее аналог ДИСП.В() , англ. название VARS, т.е. Sample VARiance. Кроме того, начиная с версии MS EXCEL 2010 присутствует функция ДИСП.Г(), англ. название VARP, т.е. Population VARiance, которая вычисляет дисперсию для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у ДИСП.В() , у ДИСП.Г() в знаменателе просто n. До MS EXCEL 2010 для вычисления дисперсии генеральной совокупности использовалась функция ДИСПР() .

Дисперсию выборки
=КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1)
=(СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/ (СЧЁТ(Выборка)-1) – обычная формула
=СУММ((Выборка -СРЗНАЧ(Выборка))^2)/ (СЧЁТ(Выборка)-1 ) –

Дисперсия выборки равна 0, только в том случае, если все значения равны между собой и, соответственно, равны среднему значению . Обычно, чем больше величина дисперсии , тем больше разброс значений в массиве.

Дисперсия выборки является точечной оценкой дисперсии распределения случайной величины, из которой была сделана выборка . О построении доверительных интервалов при оценке дисперсии можно прочитать в статье .

Дисперсия случайной величины

Чтобы вычислить дисперсию случайной величины, необходимо знать ее .

Для дисперсии случайной величины Х часто используют обозначение Var(Х). Дисперсия равна квадрата отклонения от среднего E(X): Var(Х)=E[(X-E(X)) 2 ]

дисперсия вычисляется по формуле:

где x i – значение, которое может принимать случайная величина, а μ – среднее значение (), р(x) – вероятность, что случайная величина примет значение х.

Если случайная величина имеет , то дисперсия вычисляется по формуле:

Размерность дисперсии соответствует квадрату единицы измерения исходных значений. Например, если значения в выборке представляют собой измерения веса детали (в кг), то размерность дисперсии будет кг 2 . Это бывает сложно интерпретировать, поэтому для характеристики разброса значений чаще используют величину равную квадратному корню из дисперсии стандартное отклонение .

Некоторые свойства дисперсии :

Var(Х+a)=Var(Х), где Х - случайная величина, а - константа.

Var(aХ)=a 2 Var(X)

Var(Х)=E[(X-E(X)) 2 ]=E=E(X 2)-E(2*X*E(X))+(E(X)) 2 =E(X 2)-2*E(X)*E(X)+(E(X)) 2 =E(X 2)-(E(X)) 2

Это свойство дисперсии используется в статье про линейную регрессию .

Var(Х+Y)=Var(Х) + Var(Y) + 2*Cov(Х;Y), где Х и Y - случайные величины, Cov(Х;Y) - ковариация этих случайных величин.

Если случайные величины независимы (independent), то их ковариация равна 0, и, следовательно, Var(Х+Y)=Var(Х)+Var(Y). Это свойство дисперсии используется при выводе .

Покажем, что для независимых величин Var(Х-Y)=Var(Х+Y). Действительно, Var(Х-Y)= Var(Х-Y)= Var(Х+(-Y))= Var(Х)+Var(-Y)= Var(Х)+Var(-Y)= Var(Х)+(-1) 2 Var(Y)= Var(Х)+Var(Y)= Var(Х+Y). Это свойство дисперсии используется для построения .

Стандартное отклонение выборки

Стандартное отклонение выборки - это мера того, насколько широко разбросаны значения в выборке относительно их .

По определению, стандартное отклонение равно квадратному корню из дисперсии :

Стандартное отклонение не учитывает величину значений в выборке , а только степень рассеивания значений вокруг их среднего . Чтобы проиллюстрировать это приведем пример.

Вычислим стандартное отклонение для 2-х выборок: (1; 5; 9) и (1001; 1005; 1009). В обоих случаях, s=4. Очевидно, что отношение величины стандартного отклонения к значениям массива у выборок существенно отличается. Для таких случаев используется Коэффициент вариации (Coefficient of Variation, CV) - отношение Стандартного отклонения к среднему арифметическому , выраженного в процентах.

В MS EXCEL 2007 и более ранних версиях для вычисления Стандартного отклонения выборки используется функция =СТАНДОТКЛОН() , англ. название STDEV, т.е. STandard DEViation. С версии MS EXCEL 2010 рекомендуется использовать ее аналог =СТАНДОТКЛОН.В() , англ. название STDEV.S, т.е. Sample STandard DEViation.

Кроме того, начиная с версии MS EXCEL 2010 присутствует функция СТАНДОТКЛОН.Г() , англ. название STDEV.P, т.е. Population STandard DEViation, которая вычисляет стандартное отклонение для генеральной совокупности . Все отличие сводится к знаменателю: вместо n-1 как у СТАНДОТКЛОН.В() , у СТАНДОТКЛОН.Г() в знаменателе просто n.

Стандартное отклонение можно также вычислить непосредственно по нижеуказанным формулам (см. файл примера )
=КОРЕНЬ(КВАДРОТКЛ(Выборка)/(СЧЁТ(Выборка)-1))
=КОРЕНЬ((СУММКВ(Выборка)-СЧЁТ(Выборка)*СРЗНАЧ(Выборка)^2)/(СЧЁТ(Выборка)-1))

Другие меры разброса

Функция КВАДРОТКЛ() вычисляет сумму квадратов отклонений значений от их среднего . Эта функция вернет тот же результат, что и формула =ДИСП.Г(Выборка )*СЧЁТ(Выборка ) , где Выборка - ссылка на диапазон, содержащий массив значений выборки (). Вычисления в функции КВАДРОТКЛ() производятся по формуле:

Функция СРОТКЛ() является также мерой разброса множества данных. Функция СРОТКЛ() вычисляет среднее абсолютных значений отклонений значений от среднего . Эта функция вернет тот же результат, что и формула =СУММПРОИЗВ(ABS(Выборка-СРЗНАЧ(Выборка)))/СЧЁТ(Выборка) , где Выборка - ссылка на диапазон, содержащий массив значений выборки.

Вычисления в функции СРОТКЛ () производятся по формуле:

В случае, если совокупность разбита на группы по изучаемому признаку, то для данной совокупности могут быть исчислены следующие виды дисперсии: общая, групповые (внутригрупповые), средняя из групповых (средняя из внутригрупповых), межгрупповая.

Первоначально рассчитывает коэффициент детерминации, который показывает какую часть общей вариации изучаемого признака составляет вариация межгрупповая, т.е. обусловленная группировочным признаком:

Эмпирическое корреляционное отношение характеризует тесноту связи между признаками группировочным (факторным) и результативным.

Эмпирическое корреляционное отношение может принимать значения от 0 до 1.

Для оценки тесноты связи на основе показателя эмпирического корреляционного отношения можно воспользоваться соотношениями Чеддока:

Пример 4. Имеются следующие данные о выполнении работ проектно-изыскательскими организациями разной формы собственности:

Определить:

1) общую дисперсию;

2) групповые дисперсии;

3) среднюю из групповых дисперсий;

4) межгрупповую дисперсию;

5) общую дисперсию на основе правила сложения дисперсий;


6) коэффициент детерминации и эмпирическое корреляционное отношение.

Сделайте выводы.

Решение:

1. Определим средний объём выполнения работ предприятий двух форм собственности:

Рассчитаем общую дисперсию:

2. Определим групповые средние:

млн руб.;

млн руб.

Групповые дисперсии:

;

3. Рассчитаем среднюю из групповых дисперсий:

4. Определим межгрупповую дисперсию:

5. Рассчитаем общую дисперсию на основе правила сложения дисперсий:

6. Определим коэффициент детерминации:

.

Таким образом, объём работ, выполненных проектно-изыскательскими организациями на 22% зависит от формы собственности предприятий.

Эмпирическое корреляционное отношение рассчитываем по формуле

.

Величина рассчитанного показателя свидетельствует о том, что зависимость объема работ от формы собственности предприятия невелика.

Пример 5. В результате обследования технологической дисциплины производственных участков получены следующие данные:

Определите коэффициент детерминации

Однако только этой характеристики ещё не достаточно для исследования случайной величины. Представим двух стрелков, которые стреляют по мишени. Один стреляет метко и попадает близко к центру, а другой… просто развлекается и даже не целится. Но что забавно, его средний результат будет точно таким же, как и у первого стрелка! Эту ситуацию условно иллюстрируют следующие случайные величины:

«Снайперское» математическое ожидание равно , однако и у «интересной личности»: – оно тоже нулевое!

Таким образом, возникает потребность количественно оценить, насколько далеко рассеяны пули (значения случайной величины) относительно центра мишени (математического ожидания). Ну а рассеяние с латыни переводится не иначе, как дисперсия .

Посмотрим, как определяется эта числовая характеристика на одном из примеров 1-й части урока:

Там мы нашли неутешительное математическое ожидание этой игры, и сейчас нам предстоит вычислить её дисперсию, которая обозначается через .

Выясним, насколько далеко «разбросаны» выигрыши/проигрыши относительно среднего значения. Очевидно, что для этого нужно вычислить разности между значениями случайной величины и её математическим ожиданием :

–5 – (–0,5) = –4,5
2,5 – (–0,5) = 3
10 – (–0,5) = 10,5

Теперь вроде бы нужно просуммировать результаты, но этот путь не годится – по той причине, что колебания влево будут взаимоуничтожаться с колебаниями вправо. Так, например, у стрелка-«любителя» (пример выше) разности составят , и при сложении дадут ноль, поэтому никакой оценки рассеяния его стрельбы мы не получим.

Чтобы обойти эту неприятность можно рассмотреть модули разностей, но по техническим причинам прижился подход, когда их возводят в квадрат. Решение удобнее оформить таблицей:

И здесь напрашивается вычислить средневзвешенное значение квадратов отклонений. А это ЧТО такое? Это их математическое ожидание , которое и является мерилом рассеяния:

определение дисперсии. Из определения сразу понятно, что дисперсия не может быть отрицательной – возьмите на заметку для практики!

Вспоминаем, как находить матожидание. Перемножаем квадраты разностей на соответствующие вероятности (продолжение таблицы) :
– образно говоря, это «сила тяги»,
и суммируем результаты:

Не кажется ли вам, что на фоне выигрышей результат получился великоватым? Всё верно – мы возводили в квадрат, и чтобы вернуться в размерность нашей игры, нужно извлечь квадратный корень. Данная величина называется средним квадратическим отклонением и обозначается греческой буквой «сигма»:

Иногда это значение называют стандартным отклонением .

В чём его смысл? Если мы отклонимся от математического ожидания влево и вправо на среднее квадратическое отклонение:

– то на этом интервале будут «сконцентрированы» наиболее вероятные значения случайной величины. Что мы, собственно, и наблюдаем:

Однако так сложилось, что при анализе рассеяния почти всегда оперируют понятием дисперсии. Давайте разберёмся, что она означает применительно к играм. Если в случае со стрелками речь идёт о «кучности» попаданий относительно центра мишени, то здесь дисперсия характеризует две вещи:

Во-первых, очевидно то, что при увеличении ставок, дисперсия тоже возрастает. Так, например, если мы увеличим в 10 раз, то математическое ожидание увеличится в 10 раз, а дисперсия – в 100 раз (коль скоро, это квадратичная величина) . Но, заметьте, что сами-то правила игры не изменились! Изменились лишь ставки, грубо говоря, раньше мы ставили 10 рублей, теперь 100.

Второй, более интересный момент состоит в том, что дисперсия характеризует стиль игры. Мысленно зафиксируем игровые ставки на каком-то определённом уровне , и посмотрим, что здесь к чему:

Игра с низкой дисперсией – это осторожная игра. Игрок склонен выбирать самые надёжные схемы, где за 1 раз он не проигрывает/выигрывает слишком много. Например, система «красное/чёрное» в рулетке (см. Пример 4 статьи Случайные величины ) .

Игра с высокой дисперсией. Её часто называют дисперсионной игрой. Это авантюрный или агрессивный стиль игры, где игрок выбирает «адреналиновые» схемы. Вспомним хотя бы «Мартингейл» , в котором на кону оказываются суммы, на порядки превосходящие «тихую» игру предыдущего пункта.

Показательна ситуация в покере: здесь есть так называемые тайтовые игроки, которые склонны осторожничать и «трястись» над своими игровыми средствами (банкроллом) . Неудивительно, что их банкролл не подвергается значительным колебаниям (низкая дисперсия). Наоборот, если у игрока высокая дисперсия, то это агрессор. Он часто рискует, делает крупные ставки и может, как сорвать огромный банк, так и програться в пух и прах.

То же самое происходит на Форексе, и так далее – примеров масса.

Причём, во всех случаях не важно – на копейки ли идёт игра или на тысячи долларов. На любом уровне есть свои низко- и высокодисперсионные игроки. Ну а за средний выигрыш, как мы помним, «отвечает» математическое ожидание .

Наверное, вы заметили, что нахождение дисперсии – есть процесс длительный и кропотливый. Но математика щедрА:

Формула для нахождения дисперсии

Данная формула выводится непосредственно из определения дисперсии, и мы незамедлительно пускаем её в оборот. Скопирую сверху табличку с нашей игрой:

и найденное матожидание .

Вычислим дисперсию вторым способом. Сначала найдём математическое ожидание – квадрата случайной величины . По определению математического ожидания :

В данном случае:

Таким образом, по формуле:

Как говорится, почувствуйте разницу. И на практике, конечно, лучше применять формулу (если иного не требует условие).

Осваиваем технику решения и оформления:

Пример 6

Найти её математическое ожидание, дисперсию и среднее квадратическое отклонение.

Эта задача встречается повсеместно, и, как правило, идёт без содержательного смысла.
Можете представлять себе несколько лампочек с числами, которые загораются в дурдоме с определёнными вероятностями:)

Решение : Основные вычисления удобно свести в таблицу. Сначала в верхние две строки записываем исходные данные. Затем рассчитываем произведения , затем и, наконец, суммы в правом столбце:

Собственно, почти всё готово. В третьей строке нарисовалось готовенькое математическое ожидание: .

Дисперсию вычислим по формуле:

И, наконец, среднее квадратическое отклонение:
– лично я обычно округляю до 2 знаков после запятой.

Все вычисления можно провести на калькуляторе, а ещё лучше – в Экселе:

вот здесь уже трудно ошибиться:)

Ответ :

Желающие могут ещё более упростить свою жизнь и воспользоваться моим калькулятором (демо) , который не только моментально решит данную задачу, но и построит тематические графики (скоро дойдём) . Программу можно скачать в библиотеке – если вы загрузили хотя бы один учебный материал, либо получить другим способом . Спасибо за поддержку проекта!

Пара заданий для самостоятельного решения:

Пример 7

Вычислить дисперсию случайной величины предыдущего примера по определению.

И аналогичный пример:

Пример 8

Дискретная случайная величина задана своим законом распределения:

Да, значения случайной величины бывают достаточно большими (пример из реальной работы) , и здесь по возможности используйте Эксель. Как, кстати, и в Примере 7 – это быстрее, надёжнее и приятнее.

Решения и ответы внизу страницы.

В заключение 2-й части урока разберём ещё одну типовую задачу, можно даже сказать, небольшой ребус:

Пример 9

Дискретная случайная величина может принимать только два значения: и , причём . Известна вероятность , математическое ожидание и дисперсия .

Решение : начнём с неизвестной вероятности. Так как случайная величина может принять только два значения, то сумма вероятностей соответствующих событий:

и поскольку , то .

Осталось найти …, легко сказать:) Но да ладно, понеслось. По определению математического ожидания:
– подставляем известные величины:

– и больше из этого уравнения ничего не выжать, разве что можно переписать его в привычном направлении:

или:

О дальнейших действиях, думаю, вы догадываетесь. Составим и решим систему:

Десятичные дроби – это, конечно, полное безобразие; умножаем оба уравнения на 10:

и делим на 2:

Вот так-то лучше. Из 1-го уравнения выражаем:
(это более простой путь) – подставляем во 2-е уравнение:


Возводим в квадрат и проводим упрощения:

Умножаем на :

В результате получено квадратное уравнение , находим его дискриминант:
– отлично!

и у нас получается два решения:

1) если , то ;

2) если , то .

Условию удовлетворяет первая пара значений. С высокой вероятностью всё правильно, но, тем не менее, запишем закон распределения:

и выполним проверку, а именно, найдём матожидание:




Top