Показатели центра распределения и отклонения (разброса)

Для определения средних или наиболее типичных значений совокупности используются показатели центра распределения. Основные из них — математическое ожидание, среднее арифметическое, среднее геометрическое, среднее гармоническое, степенные средние, взвешенные средние, центр сгиба, медиана, мода.

Расчёт средних величин производится разными способами, и, соответственно, применение их тоже зависит от исследуемой совокупности.

Рассмотрим подробнее математическое ожидание, медиану и моду. У симметричного одномерного унимодального распределения математическое ожидание, медиана и мода одинаковы.

Математическое ожидание

Основная статья: Математическое ожидание

\operatorname M \xi = \int x f_\xi(x)\, dx.

В зарубежной литературе применяется обозначение \mathbb E \,\xi.

В статистике применяется выборочное среднее:

\bar{X} = \frac{1}{n} \sum\limits_{i=1}^n X_i.

Преимущества: если эксперимент повторяется многократно, а результаты суммируются (например, в страховании, азартных играх), математическое ожидание — естественный выбор.

Недостатки: не соответствует интуитивному пониманию «среднего»; меньшинство с аномальными значениями (долгожители, миллиардеры, бракованные изделия и т. д.) серьёзно смещают матожидание. В статистических расчётах рекомендуется отбрасывать такой «хвост».

·                  Математи́ческое ожида́ние — среднее значение случайной величины, распределение вероятностей случайной величины, рассматривается в теории вероятностей.[1] В англоязычной литературе и в математическом сообществе Санкт-Петербурга обозначается через \mathbb{E}[X](например, от англ. Expectedvalue или нем. Erwartungswert), в русской — M[X](возможно, от англ. Meanvalue или нем. Mittelwert, а возможно от рус. Математическое ожидание). В статистике часто используют обозначение \mu.

Определение

Пусть задано вероятностное пространство (\Omega,\mathcal{F},\mathbb{P})и определённая на нём случайная величина X. То есть, по определению, X\colon\Omega \to \mathbb{R} — измеримая функция. Если существует интеграл Лебега от Xпо пространству \Omega, то он называется математическим ожиданием, или средним (ожидаемым) значением и обозначается M[X]или \mathbb{E}[X].

M[X]=\int\limits_{\Omega}\! X(\omega)\, \mathbb{P}(d\omega).

Основные формулы для математического ожидания

·                  Если F_X(x) — функция распределения случайной величины, то её математическое ожидание задаётся интегралом Лебега — Стилтьеса:

M[X]=\int\limits_{-\infty}^{\infty}\!x\, dF_X(x); x \in \mathbb R.

Математическое ожидание дискретного распределения

·                  Если X — дискретная случайная величина, имеющая распределение

\mathbb{P}(X=x_i) = p_i,\; \sum\limits_{i=1}^{\infty} p_i = 1,

то прямо из определения интеграла Лебега следует, что

M[X]=\sum\limits_{i=1}^{\infty} x_i\, p_i.

Математическое ожидание целочисленной величины

·                  Если X — положительная целочисленная случайная величина (частный случай дискретной), имеющая распределение вероятностей

\mathbb{P}(X=j) = p_j,\; j=0,1,...;\quad \sum\limits_{j=0}^{\infty} p_j = 1

то её математическое ожидание может быть выражено через производящую функцию последовательности \{p_i\}

P(s)=\sum_{k=0}^\infty\;p_k s^k

как значение первой производной в единице: M[X] = P'(1). Если математическое ожидание Xбесконечно, то \lim_{s\to 1}P'(s)=\inftyи мы будем писать P'(1)=M[X]=\infty

Теперь возьмём производящую функцию Q(s)последовательности «хвостов» распределения \{q_k\}

q_k=\mathbb{P}(X>j)=\sum_{j=k+1}^\infty{p_j};\quad Q(s)=\sum_{k=0}^\infty\;q_k s^k.

Эта производящая функция связана с определённой ранее функцией P(s)свойством: Q(s)=\frac{1-P(s)}{1-s}при |s|<1. Из этого по теореме о среднем следует, что математическое ожидание равно просто значению этой функции в единице:

M[X]=P'(1)=Q(1)

Математическое ожидание абсолютно непрерывного распределения

·                  Математическое ожидание абсолютно непрерывной случайной величины, распределение которой задаётся плотностью f_X(x), равно

M[X]=\int\limits_{-\infty}^{\infty}\! x f_X(x)\, dx.

Математическое ожидание случайного вектора

Пусть X=(X_1,\dots,X_n)^{\top}\colon\Omega \to \mathbb{R}^n — случайный вектор. Тогда по определению

M[X]=(M[X_1],\dots,M[X_n])^{\top},

то есть математическое ожидание вектора определяется покомпонентно.

Математическое ожидание преобразования случайной величины

Пусть g\colon\mathbb{R}\to \mathbb{R} — борелевская функция, такая что случайная величина Y = g(X)имеет конечное математическое ожидание. Тогда для него справедлива формула:

M\left[g(X)\right] = \sum\limits_{i=1}^{\infty} g(x_i) p_i,

если Xимеет дискретное распределение;

M\left[g(X)\right] = \int\limits_{-\infty}^{\infty}\!g(x) f_X(x)\, dx,

если Xимеет абсолютно непрерывное распределение.

Если распределение \mathbb{P}^Xслучайной величины Xобщего вида, то

M\left[g(X)\right] = \int\limits_{-\infty}^{\infty}\!g(x)\, \mathbb{P}^X(dx).

В специальном случае, когда g(X)=X^k, Математическое ожидание M\left[g(X)\right]=M[X^k]называется k-тым моментом случайной величины.

Простейшие свойства математического ожидания

·                  Математическое ожидание числа есть само число.

M[a] = a

a \in \mathbb{R} — константа;

·                  Математическое ожидание линейно, то есть

M[aX+bY] = aM[X]+bM[Y],

где X,Y — случайные величины с конечным математическим ожиданием, а a,b\in \mathbb{R} — произвольные константы;

·                  Математическое ожидание сохраняет неравенства, то есть если 0 \leqslant X \leqslant Yпочти наверное, и Y — случайная величина с конечным математическим ожиданием, то математическое ожидание случайной величины Xтакже конечно, и более того

0 \leqslant M[X] \leqslant M[Y];

·                  Математическое ожидание не зависит от поведения случайной величины на событии вероятности нуль, то есть если X = Yпочти наверное, то

M[X]=M[Y].

·                  Математическое ожидание произведения двух независимых случайных величин X,Yравно произведению их математических ожиданий

M[XY] = M[X]M[Y].

Примеры

·                  Пусть случайная величина имеет дискретное равномерное распределение, то есть \mathbb{P}(X = x_i) = \frac{1}{n},\; i=1,\ldots, n.Тогда её математическое ожидание

M[X] = \frac{1}{n} \sum\limits_{i=1}^n x_i

равно среднему арифметическому всех принимаемых значений.

·                  Пусть случайная величина имеет непрерывное равномерное распределение на интервале [a,b], где a<b. Тогда её плотность имеет вид f_X(x) = \frac{1}{b-a} \mathbf{1}_{[a,b]}(x)и математическое ожидание равно

M[X] = \int\limits_{a}^b\!\frac{x}{b-a}\, dx = \frac{a+b}{2}.

·                  Пусть случайная величина Xимеет стандартное распределение Коши. Тогда

\int\limits_{-\infty}^{\infty}\!xf_X(x)\, dx = \infty,

то есть математическое ожидание Xне определено.

 

Медиана

Основная статья: Медиана (статистика)

У одномерного распределения медиана — квантиль уровня 0,5. То есть, такое число m, что \operatorname P \{ \xi < m \} = 0{,}5. (Или \operatorname P \{ \xi < = m \} = 0{,}5.)

Преимущества: Медиана согласуется с интуитивным пониманием «среднего». К тому же, даже очень «дикие» выбросы изменяют медиану незначительно. Например, если к сотне бедняков (доходы равномерно распределены от 0 до 1 $) добавить одного миллиардера (1 млрд $), среднее сместится от 0,5 $ до 10 млн $, в то время как медиана — от 0,5 $ до 0,505. Монотонная функция не изменяет медиану — для любой монотонной f(x)будет выполняться \operatorname {Med} \, f(\xi) = f ( \operatorname {Med} \, \xi).

Недостатки: плохо работает для многомерных распределений со сложной взаимосвязью компонентов. Сложна в расчёте.

Медиа́на (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.

Медиана является важной характеристикой распределения случайной величины и так же, как математическое ожидание, может быть использовано для центрирования распределения. Однако, медиана более робастна и поэтому может быть более предпочтительной для распределений с т.н. тяжёлыми хвостами.

Медиана определяется для широкого класса распределений (например, для всех непрерывных), а в случае неопределённости, естественным образом доопределяется (см. ниже), в то время как математическое ожидание может быть не определено (например, у распределения Коши).

Пример использования

Предположим, что в одной комнате оказалось 19 бедняков и один миллиардер. Каждый кладет на стол деньги — бедняки из кармана, а миллиардер из чемодана. По пять долларов кладет каждый бедняк, а миллиардер — $1 млрд (109). В сумме получается $1 000 000 095. Если мы разделим деньги равными долями на 20 человек, то получим $50 000 004,75. Это будет среднее арифметическое значение суммы наличных, которая была у всех 20 человек в этой комнате.

Медиана в этом случае будет равна $5 (полусумма десятого и одиннадцатого, срединных значений ранжированного ряда). Можно интерпретировать это следующим образом. Разделив нашу компанию на две равные группы по 10 человек, мы можем утверждать, что в первой группе каждый положил на стол не больше $5, во второй же не меньше $5. В общем случае можно сказать, что медиана это то, сколько принес с собой средний человек. Наоборот, среднее арифметическое — неподходящая характеристика, так как оно значительно превышает сумму наличных, имеющуюся у среднего человека.

Неуникальность значения

Если имеется чётное количество случаев и два средних значения различаются, то медианой, по определению, может служить любое число между ними (например, в выборке {1, 2, 3, 4} медианой, по определению, может служить любое число из интервала (2,3)). На практике в этом случае чаще всего используют среднее арифметическое двух средних значений.

 

Мода (статистика)

 

Материал из Википедии — свободной энциклопедии

Перейти к: навигация, поиск

У этого термина существуют и другие значения, см. Мода (значения).

Мода — значение во множестве наблюдений, которое встречается наиболее часто. Случайная величина может не иметь моды. Иногда в совокупности встречается более чем одна мода (например: 2, 6, 6, 6, 8, 9, 9, 9, 10; мода = 6 и 9). В этом случае можно сказать, что совокупность мультимодальна. Из структурных средних величин только мода обладает таким уникальным свойством. Как правило мультимодальность указывает на то, что набор данных не подчиняется нормальному распределению.

Мода как средняя величина употребляется чаще для данных, имеющих нечисловую природу. Среди перечисленных цветов автомобилей — белый, черный, синий металлик, белый, синий металлик, белый — мода будет равна белому цвету. При экспертной оценке с её помощью определяют наиболее популярные типы продукта, что учитывается при прогнозе продаж или планировании их производства.

Абсолютное отклонение

В статистике абсолютное отклонение элементов в совокупности данных — абсолютная разница между элементом и выбранной точкой, от которой отсчитывается отклонение. В случаях, когда априорно известно, что выбранная точка является константой, а распределение элементов данных симметрично относительно неё, при отсутствии дополнительных данных, за точку отсчёта абсолютного отклонения принимается медиана или среднее значение рассматриваемой совокупности данных.

|D| = |x_i-m(X)|

где

|D|— абсолютное отклонение,

x_i— элемент совокупности данных,

m(X)— одно из средних значений совокупности данных; это может быть среднее арифметическое (\overline{x}), но чаще всего в качестве среднего значения берется медиана.

Среднее абсолютное отклонение, или просто среднее отклонение (MAD – mean absolute deviation) — величина, используемая для оценки прогнозных функций:

MAD=\frac{1}{n}\sum_{i=1}^n |x_i-m(X)|

Выбор среднего значения m(X)сильно влияет на среднее отклонение. Например, для совокупности {2, 2, 3, 4, 14}:

Среднее значение m(X)

Среднее абсолютное отклонение

Среднее арифметическое = 5

\frac{|2 - 5| + |2 - 5| + |3 - 5| + |4 - 5| + |14 - 5|}{5} = 3.6

Медиана = 3

\frac{|2 - 3| + |2 - 3| + |3 - 3| + |4 - 3| + |14 - 3|}{5} = 2.8

Мода = 2

\frac{|2 - 2| + |2 - 2| + |3 - 2| + |4 - 2| + |14 - 2|}{5} = 3.0

Среднеквадратическое отклонение

Среднеквадрати́ческое отклоне́ние (синонимы: среднеквадрати́чное отклоне́ние, квадрати́чное отклоне́ние; близкие термины: станда́ртное отклоне́ние, станда́ртный разбро́с) — в теории вероятностей и статистике наиболее распространённый показатель рассеивания значений случайной величины относительно её математического ожидания.

Основные сведения

Измеряется в единицах измерения самой случайной величины. Равно корню квадратному из дисперсии случайной величины. Среднеквадратическое отклонение используют при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами.

Среднеквадратическое отклонение:

\sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2};

стандартное отклонение (Оценка среднеквадратического отклонения случайной величины x относительно её математического ожидания на основе несмещенной оценки ее дисперсии):

s=\sqrt{\frac{n}{n-1}\sigma^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2};

где \sigma^2\,\! — дисперсия; x_i\,\! — i-й элемент выборки; n\,\! — объём выборки; \bar{x}\,\! — среднее арифметическое выборки:

\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i  =  \frac{1}{n} (x_1+\ldots+x_n).

Следует отметить, что обе оценки являются смещенными. В общем случае несмещенную оценку построить невозомжно. Однако оценка на основе оценки несмещенной дисперсии является состоятельной.

Интерпретация величины среднеквадратического отклонения

Большое значение среднеквадратического отклонения показывает большой разброс значений в представленном множестве со средней величиной множества; маленькое значение, соответственно, показывает, что значения в множестве сгруппированы вокруг среднего значений.

Например, у нас есть три числовых множества: {0, 0, 14, 14}, {0, 6, 8, 14} и {6, 6, 8, 8}. У всех трёх множеств средние значения равны 7, а среднеквадратические отклонения, соответственно, равны 7, 5 и 1. У последнего множества среднеквадратические отклонения маленькое, так как значения в множестве сгруппированы вокруг среднего значения; у первого множества самое большое значение среднеквадратического отклонения - значения внутри множества сильно расходятся со средним значением.

В общем смысле среднеквадратическое отклонение можно считать мерой неопределенности. К примеру, в физике среднеквадратическое отклонение используется для определения погрешности серии последовательных измерений какой-либо величины. Это значение очень важно для определения правдоподобности изучаемого явления в сравнении с предсказанным теорией значением: если среднее значение измерений сильно отличается от предсказанных теорией значений (большое значение среднеквадратического отклонения), то полученные значения или метод их получения следует перепроверить.

На практике среднеквадратическое отклонение позволяет определить насколько значения в множестве могут отличаться от среднего значения. В техническом анализе среднеквадратическое отклонение используется для построения линий Боллинджера.

 

Дисперсия случайной величины  — мера разброса данной случайной величины, то есть её отклонения от математического ожидания. Обозначается D[X] в русской литературе и \operatorname{var}\,X(англ. variance) в зарубежной. В статистике часто употребляется обозначение \sigma_X^2или \displaystyle \sigma^2. Квадратный корень из дисперсии, равный \displaystyle \sigma, называется среднеквадрати́чным отклоне́нием, станда́ртным отклоне́нием или стандартным разбросом. Стандартное отклонение измеряется в тех же единицах, что и сама случайная величина, а дисперсия измеряется в квадратах этой единицы измерения.

Дисперсией дискретной случайной величины называют сумму произведений квадратов отклонения значений случайной величины от своего математического ожидания на соответствующую вероятность. Дисперсия показывает величину разброса значений случайной величины от своего математического ожидания.

Из неравенства Чебышева следует, что случайная величина удаляется от её математического ожидания на более чем k стандартных отклонений с вероятностью менее 1/k². Так, например, как минимум в 75 % случаев случайная величина удалена от её среднего не более чем на два стандартных отклонения, а в примерно 89 % — не более чем на три.

Определение

Пусть \displaystyle X — случайная величина, определённая на некотором вероятностном пространстве. Тогда

D[X] = M\left[|X -M[X]|^2\right]

где символ Mобозначает математическое ожидание[1][2].

Замечания

·                  Если случайная величина Xвещественна, то, в силу линейности математического ожидания, справедлива формула:

D[X] = M[X^2] - \left(M[X]\right)^2;

·                  Дисперсия является вторым центральным моментом случайной величины;

·                  Дисперсия может быть бесконечной. См., например, распределение Коши.

·                  Дисперсия может быть вычислена с помощью производящей функции моментов U(t):

D[X] = M[X^2] - \left(M[X]\right)^2 = U''(0) - \left(U'(0)\right)^2

·                  Дисперсия целочисленной случайной величины может быть вычислена с помощью производящей функции последовательности.

Свойства

·                  Дисперсия любой случайной величины неотрицательна: D[X] \geqslant 0;

·                  Если дисперсия случайной величины конечна, то конечно и её математическое ожидание;

·                  Если случайная величина равна константе, то её дисперсия равна нулю: D[a] = 0.Верно и обратное: если D[X]=0,то X =M[X]почти всюду;

·                  Дисперсия суммы двух случайных величин равна:

\! D[X + Y] = D[X] + D[Y] + 2\,\text{cov}(X, Y), где \! \text{cov}(X, Y) — их ковариация;

·                  Для дисперсии произвольной линейной комбинации нескольких случайных величин имеет место равенство:

\! D\left[\sum_{i=1}^n c_i X_i\right] = \sum_{i=1}^n c_i^2 D[X_i] + 2 \sum_{1 \leqslant i < j \leqslant n} c_i c_j\, \text{cov}(X_i, X_j), где c_i \in \R;

·                  В частности, D[X_1 + ... + X_n] = D[X_1] + ... + D[X_n]для любых независимых или некоррелированных случайных величин, так как их ковариации равны нулю;

·                  D\left[aX\right] = a^2D[X];

·                  D\left[-X\right] = D[X];

·                  D\left[X+b\right] = D[X].

Пример

Пусть случайная величина \displaystyle Xимеет стандартное непрерывное равномерное распределение на \displaystyle [0,1],то есть её плотность вероятности задана равенством

f_X(x) = \left\{
\begin{matrix}
1, & x\in [0,1] \\
0, & x \not\in [0,1].
\end{matrix}
\right.

Тогда математическое ожидание квадрата случайной величины

M\left[X^2\right] = \int\limits_0^1\!x^2\, dx = \left. \frac{x^3}{3}\right\vert_0^1 = \frac{1}{3},

и математическое ожидание случайной величины

M\left[X\right] = \int\limits_0^1\! x\, dx = \left. \frac{x^2}{2}\right\vert_0^1 = \frac{1}{2}.

Тогда дисперсия случайной величины

D[X] = M\left[X^2\right] - (M[X])^2 = \frac{1}{3} - \left(\frac{1}{2}\right)^2 = \frac{1}{12}.

Выборочное стандартное отклонение

Стандартное отклонение (иногда среднеквадратичное отклонение) — в теории вероятности и статистике наиболее распространенный показатель рассеивания значений случайной величины относительно её математического ожидания. Измеряется в единицах измерения самой случайной величины. Равна корню квадратному из дисперсии случайной величины. Стандартное отклонение используют при расчёте стандартной ошибкисреднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами.

s=\sqrt{\frac{n}{n-1}\sigma^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}, \quad \sigma=\sqrt{\frac{1}{n}\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}

где s\,\!— стандарт, стандартное отклонение, несмещенная оценка среднеквадратического отклонения случайной величины X относительно её математического ожидания; \sigma^2\,\!— дисперсия; x_i\,\!i-й элемент выборки; \bar{x}\,\!— среднее арифметическое выборки; n\,\!— объём выборки.

Следует отметить отличие стандарта (в знаменателе n − 1) от корня из среднеквадратического отклонения (в знаменателе n), при малом объёме выборки оценка дисперсии через последнюю величину является несколько смещенной, при бесконечно большом объёме выборки разница между указанными величинами исчезает.