Полученные в исследованиях выборочные данные всегда ог­раничены и носят в значительной мере случайный характер. Именно поэтому для анализа таких данных и используется мате­матическая статистика, позволяющая обобщать закономерности, полученные на выборке, и распространять их на всю генераль­ную совокупность.

Подчеркнем еще раз, что полученные в результате эксперимента на какой-либо выборке данные служат основанием для суждения о генеральной совокупности. Однако в силу действия случайных вероятностных причин оценка параметров генеральной совокупности, сделанная на основании экспериментальных (выборочных) данных, всегда будет сопровождаться погрешностью, и поэтому подобного рода оценки должны рассматриваться как предположительные, а не как окончательные утверждения.

Как указывает Г.В. Суходольский: «Под статистической гипотезой обычно понимают формальное предположение о том, что сходство (или различие) некоторых параметрических или функциональных характеристик случайно или, наоборот, неслучайно». Подобные предположения о свойствах и параметрах генеральной совокупности, различии выборок или зависимости между признаками получили названиестатистических гипотез.

Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются ли экспериментальные данные и выдвинутая гипотеза, допустимо ли отнести расхождение между гипотезой и результатом статистического анализа экспериментальных данных за счет случайных причин? Таким образом, статистическая гипотеза - это научная гипотеза, допускающая статистическую проверку, а математическая статистика - это научная дисциплина, задачей которой и является научно обоснованная проверка статистических гипотез.

При проверке статистических гипотез используются два по­нятия: так называемая нулевая (обозначение Н 0 ) и альтернативная гипотеза (обозначение Н 1 ).

При сравнении распределений принято считать, что нулевая гипотеза Н 0 - это гипотеза о сходстве, а альтернативная Н 1 - гипотеза о различии. Таким об­разом, принятие нулевой гипотезы Н 0 свидетельствует об отсут­ствии различий, а гипотезы Н 1 - о наличии различий.

Например, две выборки извлечены из нормально рас­пределенных генеральных совокупностей и перед нами стоит задача сравнить эти выборки. Одна выборка имеет параметры и σ 1 , а другая параметры и σ 2 . Нуле­вая гипотеза Н 0 исходит из предположения о том, что = иσ 1 = σ 2 , то есть разность двух средних =0 и разность двух стандартных отклонений σ 1 σ 2 ,=0 (отсюда и название гипотезы - нулевая).

Принятие альтернативной гипотезы Н 1 свидетельствует о наличии различий и исходит из предположения, что ≠0 и σ 1 σ 2 ,≠0.


Очень часто альтернативная гипотеза носит название экспериментальной гипотезы , если в исследовании ставится задача доказать существование различий между выборками. Если же исследователь хочет доказать именно отсутствие различий, то экспериментальной гипотезой является нулевая гипотеза.

При сравнении выборок альтернативные статистические гипотезы могут быть направленными и ненаправленными.

Если мы заметили, что в одной выборке индивидуальные значения испытуемых по какому-либо признаку, выше, а в другой - ниже, то для проверки различий между выборками формулируется направленная гипотеза . Если мы ходим доказать, что в одной группе под влиянием каких-то экспериментальных воздействий произошли более выраженные изменения, необходимо также сформулировать направленную гипотезу. Формально она записывается так Н 1: х 1 превышает х 2 . Нулевая гипотеза при этом выглядит следующим образомН 0: х 1 не превышает х 2 .

Если мы хотим доказать, что различаются формы распределения, то формулируются ненаправленные гипотезы . Формально они записывается так Н 1: х 1 отличается от х 2 . Нулевая гипотеза Н 0: х 1 не отличается от х 2 .

Вообще говоря, при принятии или отвержении гипотез воз­можны различные варианты.

При проверке гипотезы экспериментальные данные могут противоречить гипотезе Н 0 , тогда эта гипотеза отклоняется. В противном случае, т.е. если экспериментальные данные согласу­ются с гипотезой Н 0 , она не отклоняется. Часто в таких случаях говорят, что гипотеза Н 0 принимается (хотя такая формулировка не совсем точна, однако она широко распространена). Отсюда видно, что статисти­ческая проверка гипотез, основанная на экспериментальных, выборочных данных, неизбежно связана с риском (вероятностью) принять ложное решение. При этом возможны ошибки двух родов. Ошибка первого рода произойдет, когда будет принято решение отклонить гипотезу Н 0 , хотя в действительности она оказывается верной. Ошибка второго рода произойдет когда бу­дет принято решение не отклонять гипотезу Н 0 , хотя в действительности она будет неверна. Очевидно, что и правильные выводы могут быть приняты также в двух случаях. Вышесказанное можно представить в виде таблицы 25.

Формулирование гипотез систематизирует предположения исследователя и представляет их в четком, лаконичном виде. Решение, которое требуется принять исследователю, касается истинности или ложности статистической гипотезы. Различают два вида гипотез: научные и статистические. Научная гипотеза – это предполагаемое решение проблемы (формулируется как теорема). Статистическая гипотеза – просто утверждение относительно неизвестного параметра генеральной совокупности (свойстве случайной величины или событии), которое формулируется для проверки надежности связи и которое можно проверить по известным выборочным статистикам (результатам исследования, имеющимся эмпирическим данным) .

Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные. Нулевая гипотеза (Н 0) это гипотеза об отсутствии различий, отсутствие влияния фактора, отсутствие эффекта и т.п . Это то, что предполагается опровергнуть, если перед нами стоит задача доказать значимость различий. Альтернативная гипотеза (Н 1) это гипотеза о значимости различий. Это то, что предполагается доказать, поэтому ее иногда называют экспериментальной или рабочей гипотезой.

Сама же процедура обработки полученных количественных данных, заключающаяся в вычислении некоторых статистических характеристик и оценок, позволяющих проверить нулевую гипотезу называется статистическим анализом .

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными. Гипотеза называется направленной , если она содержит указание на направление отличий. Такие гипотезы следует формулировать, например, в том случае, если в одной из групп индивидуальные значения испытуемых по какому-либо признаку выше, а в другой ниже, или необходимо доказать, что в одной из групп под влиянием каких-либо экспериментальных воздействий произошли более выраженные изменения, чем в другой группе. Гипотеза называется ненаправленной , если ее формулировка предполагает лишь определение отличий или не отличий (без указания направления отличий). Например, если необходимо доказать, в двух разных группах различаются формы распределения признака.

Примеры формулирования гипотез.

Метод, который используется для принятия решения относительно справедливости статистической гипотезы, называется проверкой гипотезы . Основной принцип проверки гипотезы состоит в том, что выдвигается нулевая гипотеза Н 0 , с тем, чтобы попытаться опровергнуть ее и тем самым подтвердить альтернативную гипотезу Н 1 .

При проверке любой статистической гипотезы решение исследователя никогда не принимается с уверенностью, поскольку всегда остается риск принятия неправильного решения.

Обычно используемые выборки невелики, и в этих случаях вероятность ошибки может быть значительной. Существует так называемый уровень достоверности (уровень значимости) различия. Это вероятность того, что различия считаются существенными, а они на самом деле случайны. То есть это вероятность отклонения нулевой гипотезы, в то время как она верна.

Когда указывается, что различия достоверны на 5%-ном уровне значимости, или при p£0,05, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,05 (низший уровень статистической значимости). Если указывается, что различия достоверны на 1%-ном уровне значимости, или при p£0,01, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01 (достаточный уровень статистической значимости). Если указывается, что различия достоверны на 0,1%-ном уровне значимости, или при p£0,001, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,001 (высший уровень статистической значимости).

Правило отклонения Н 0 и принятия Н 1:

Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,05 или превышает его, то Н 0 отклоняется, но еще нельзя определенно принять Н 1 .

Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,01 или превышает его, то Н 0 отклоняется принимается Н 1 .

Для наглядности правила принятия решения можно использовать так называемую «ось значимости».

Если уровень достоверности не превышен, то можно считать вероятным, что выявленная разница действительно отражает положение дел в популяции. Для каждого статистического метода этот уровень можно узнать из таблиц распределения критических значений соответствующих критериев.

T – критерий Стьюдента

Это параметрический метод, используемый для проверки гипотез о достоверности разницы средних при анализе количественных данных в популяциях с нормальным распределением и с одинаковой дисперсией. Он хорошо применим в случае сравнения величин средних случайных значений измеряемого признака в контрольной и экспериментальной группах, в различных половозрастных группах, группах, имеющих другие различные признаки.

Обязательным условием применимости параметрических методов, в том числе и t‑критерия Стьюдента, для доказательства статистических гипотез является подчинение эмпирического распределения исследуемого признака закону нормального распределения .

Метод Стьюдента различен для независимых и зависимых выборок.

Независимые выборки получаются при исследовании двух различных групп испытуемых (например, контрольной и опытной групп). К зависимым выборкам относятся, например, результаты одной и той же группы испытуемых до и после воздействия независимой переменной.

Проверяемая гипотеза Н 0 состоит в том, что разность между средними значениями двух выборок равна нулю ( = 0), другими словами это гипотеза о равенстве средних (). Альтернативная гипотеза Н 1 состоит в том, что эта разность отлична от нуля ( ¹ 0) или же существует отличие выборочных средних ().

В случае независимых выборок для анализа разницы средних применяют формулу: при n 1 , n 2 > 30

и формулу при n 1 , n 2 < 30, где

Среднее арифметическое значение первой выборки;

Среднее арифметической значение второй выборки;

s 1 – стандартное отклонение для первой выборки;

s 2 – стандартное отклонение для второй выборки;

n 1 и n 2 – число элементов в первой и второй выборках.

Для нахождения критического значения t определим число степеней свободы:

n = n 1 - 1 + n 2 - 1 = (n 1 + n 2) – 2 = n - 2.

Если |t эмп | > t кр, то нулевую гипотезу отбрасываем и принимаем альтернативную, то есть считаем разницу средних достоверной. Если |t эмп | < t кр, то разница средних недостоверна.

В случае зависимых выборок для определения достоверности разницы средних применяется следующая формула: , где

d – разность между результатами в каждой паре (х i – y i);

åd – сумма этих частных разностей;

åd 2 – сумма квадратов частных разностей;

n – число пар данных.

Число степеней свободы в случае зависимых выборок для определения t критерия будет равно n = n - 1.

Существуют и другие статистические критерии проверки гипотез, как параметрические, так и непараметрические. Например, математико-статистический критерий, позволяющий судить о сходстве и различиях в дисперсиях случайных величин, называется критерием Фишера.

Корреляционный анализ

В самом общем виде под значением «корреляция» понимается взаимная связь. Хотя, говоря о корреляции, используют также термины «корреляционная связь» и «корреляционная зависимость», которые часто используются как синонимы.

Под корреляционной связью понимают согласованные изменения двух или большего количества признаков, т.е. изменчивость одного признака находится в некотором соответствии с изменчивостью другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Таким образом, согласованные изменения признаков и отражающая это корреляционная связь между ними может свидетельствовать не о зависимости этих признаков между собой, а о зависимости обоих этих признаков от какого-то третьего признака или сочетания признаков, не рассматриваемых в исследовании.

На основе собранных в статистических исследованиях данных после их обработки делаются выводы об изучаемых явлениях. Эти выводы делаются путём выдвижения и проверки статистических гипотез.

Статистической гипотезой называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин. Статистические гипотезы проверяются статистическими методами.

Проверяемая гипотеза называется основной (нулевой) и обозначается Н 0 . Кроме нулевой выдвигается ещё и альтернативная (конкурирующая) гипотеза Н 1 ,отрицающая основную. Таким образом, в результате проверки будет принята одна и только одна из гипотез, а вторая будет отвергнута.

Типы ошибок . Выдвинутая гипотеза проверяется на основании исследования выборки, полученной из генеральной совокупности. Из-за случайности выборки в результате проверки не всегда делается правильный вывод. При этом могут возникать следующие ситуации:
1. Основная гипотеза верна и она принимается.
2. Основная гипотеза верна, но она отвергается.
3. Основная гипотеза не верна и она отвергается.
4. Основная гипотеза не верна, но она принимается.
Во случае 2 говорят об ошибке первого рода , в последнем случае речь идёт об ошибке второго рода .
Таким образом, по одним выборкам принимается правильное решение, а по другим – неправильное. Решение принимается по значению некоторой функции выборки, называемой статистической характеристикой , статистическим критерием или просто статистикой . Множество значений этой статистики можно разделить на два непересекающихся подмножества:

  • Н 0 принимается (не отклоняется), называется областью принятия гипотезы (допустимой областью) ;
  • подмножество значений статистики, при которых гипотеза Н 0 отвергается (отклоняется) и принимается гипотеза Н 1 ,называется критической областью.

Выводы:

  1. Критерием называется случайная величина K , которая позволяет принять или отклонить нулевую гипотезу H0 .
  2. При проверке гипотез можно допустить ошибки 2 родов.
    Ошибка первого рода состоит в том, что будет отклонена гипотеза H 0, если она верна ("пропуск цели"). Вероятность совершить ошибку первого рода обозначается α и называется уровнем значимости . Наиболее часто на практике принимают, что α = 0,05 или α = 0,01.
    Ошибка второго рода заключается в том, что гипотеза H0 принимается, если она неверна ("ложное срабатывание"). Вероятность ошибки этого рода обозначается β.

Классификация гипотез

Основная гипотеза Н 0 о значении неизвестного параметра q распределения обычно выглядит так:
Н 0: q = q 0 .
Конкурирующая гипотеза Н 1 может при этом иметь следующий вид:
Н 1: q < q 0 , Н 1: q > q 0 или Н 1: q q 0 .
Соответственно получается левосторонняя, правосторонняя или двусторонняя критические области. Граничные точки критических областей (критические точки ) определяют по таблицам распределения соответствующей статистики.

При проверке гипотезы разумно уменьшить вероятность принятия неправильных решений. Допустимая вероятность ошибки первого рода обозначается обычно a и называется уровнем значимости . Его значение, как правило, мало (0,1, 0,05, 0,01, 0,001 …). Но уменьшение вероятности ошибки первого рода приводит к увеличению вероятности ошибки второго рода (b ), т.е. стремление принимать только верные гипотезы вызывает возрастание числа отброшенных правильных гипотез. Поэтому выбор уровня значимости определяется важностью поставленной проблемы и тяжестью последствий неверно принятого решения.
Проверка статистической гипотезы состоит из следующих этапов :
1) определение гипотез Н 0 и Н 1 ;
2) выбор статистики и задание уровня значимости;
3) определение критических точек К кр и критической области;
4) вычисление по выборке значения статистики К экс ;
5) сравнение значения статистики с критической областью (К кр и К экс );
6) принятие решения: если значение статистики не входит в критическую область, то принимается гипотеза Н 0 и отвергается гипотеза H 1 , а если входит в критическую область, то отвергается гипотеза Н 0 и принимается гипотеза Н 1 . При этом, результаты проверки статистической гипотезы нужно интерпретировать так: если приняли гипотезу Н 1 , то можно считать её доказанной, а если принялигипотезу Н 0 , то признали, что она не противоречит результатам наблюдений.Однако этим свойством наряду с Н 0 могут обладать и другие гипотезы.

Классификация проверок гипотез

Рассмотрим далее несколько различных статистических гипотез и механизмов их проверки.
I) Гипотеза о генеральном среднем значении нормального распределения при не известной дисперсии . Предполагаем, что генеральная совокупность имеет нормальное распределение, её среднее и дисперсия неизвестны, но есть основания полагать, что генеральное среднее равно a . При уровне значимости α нужно проверить гипотезу Н 0: x =a. В качестве альтернативной можно использовать одну из трёх рассмотренных выше гипотез. В данном случае статистикой служит случайная величина , имеющая распределение Стьюдента с n – 1 степенями свободы. Определяется соответствующее экспериментальное (наблюдаемое) значение t экс t кр Н 1: x >a оно находится по уровню значимости α и числу степеней свободы n – 1. Если t экс < t кр Н 1: x ≠a критическое значение находится по уровню значимости α / 2 и том же числе степеней свободы. Нулевая гипотеза принимается, если | t экс |II) Гипотеза о равенстве двух средних значений произвольно распределённых генеральных совокупностей (большие независимые выборки). При уровне значимости α нужно проверить гипотезу Н 0: x ≠y . Если объём обеих выборок велик, то можно считать, что выборочные средние имеют нормальное распределение, а их дисперсии известны. В этом случае в качестве статистики можно использовать случайную величину
,
имеющую нормальное распределение, причём M (Z ) = 0, D (Z ) = 1. Определяется соответствующее экспериментальное значение z экс . Из таблицы функции Лапласа находится критическое значение z кр . При альтернативной гипотезе Н 1: x >y оно находится из условия F (z кр ) = 0,5 – a . Если z экс < z кр , то нулевая гипотеза принимается, в противоположном случае – отвергается. При альтернативной гипотезе Н 1: x ≠y критическое значение находится из условия F (z кр ) = 0,5×(1 – a ). Нулевая гипотеза принимается, если |z экс | < z кр .

III) Гипотеза о равенстве двух средних значений нормально распределённых генеральных совокупностей, дисперсии которых неизвестны и одинаковы (малые независимые выборки) . При уровне значимости α нужно проверить основную гипотезу Н 0: x =y . В качестве статистики используем случайную величину
,
имеющую распределение Стьюдента с (n х + n у – 2) степенями свободы. Определяется соответствующее экспериментальное значение t экс . Из таблицы критических точек распределения Стьюдента находится критическое значение t кр . Всё решается аналогично гипотезе (I).

IV) Гипотеза о равенстве двух дисперсий нормально распределённых генеральных совокупностей . В данном случае при уровне значимостиa нужно проверить гипотезу Н 0: D (Х ) = D (Y ). Статистикой служит случайная величина , имеющая распределение Фишера – Снедекора с f 1 = n б – 1 и f 2 = n м – 1 степенями свободы (S 2 б – большая дисперсия, объём её выборки n б ). Определяется соответствующее экспериментальное (наблюдаемое) значение F экс . Критическое значение F кр при альтернативной гипотезе Н 1: D (Х ) > D (Y ) находится из таблицы критических точек распределения Фишера – Снедекора по уровню значимости a и числу степеней свободы f 1 и f 2 . Нулевая гипотеза принимается, если F экс < F кр .

Инструкция . Для расчета необходимо указать размерность исходных данных.

V) Гипотеза о равенстве нескольких дисперсий нормально распределённых генеральных совокупностей по выборкам одинакового объёма. В данном случае при уровне значимостиa нужно проверить гипотезу Н 0: D (Х 1) = D (Х 2) = …= D (Х l ). Статистикой служит случайная величина , имеющая распределение Кочрена со степенями свободыf = n – 1 и l (n – объём каждой выборки, l – количество выборок). Проверка этой гипотезы проводится так же, как и предыдущей. Используется таблица критических точек распределения Кочрена.

VI) Гипотеза о существенности корреляционной связи. В данном случае при уровне значимостиa нужно проверить гипотезу Н 0: r = 0. (Если коэффициент корреляции равен нулю, то соответствующие величины не связаны друг с другом). Статистикой в данном случае служит случайная величина
,
имеющая распределение Стьюдента с f = n – 2 числом степеней свободы. Проверка этой гипотезы проводится аналогично проверке гипотезы (I).

Инструкция . Укажите количество исходных данных.

VII) Гипотеза о значении вероятности появления события. Проведено достаточно большое количество n независимых испытаний, в которых событие А произошло m раз. Есть основания полагать, что вероятность наступления данного события в одном испытании равна р 0 . Требуется при уровне значимостиa проверить гипотезу о том, что вероятность события А равна гипотетической вероятности р 0 . (Т.к. вероятность оценивается по относительной частоте, то проверяемую гипотезу можно сформулировать и иначе: значимо или нет различаются наблюдаемая относительная частота и гипотетическая вероятность).
Количество испытаний достаточно велико, поэтому относительная частота события А распределена по нормальному закону. Если нулевая гипотеза верна, то её математическое ожидание равно р 0 , а дисперсия . В соответствии с этим в качестве статистики выберем случайную величину
,
которая распределена приближённо по нормальному закону с нулевым математическим ожиданием и единичной дисперсией. Проверка данной гипотезы осуществляется точно так же, как и в случае (I).

Инструкция . Для расчета необходимо заполнить исходные данные.

5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез

Основные понятия, используемые при проверке гипотез

Статистическая гипотеза – любое предположение, касающееся неизвестного распределения случайных величин (элементов). Приведем формулировки нескольких статистических гипотез:

1. Результаты наблюдений имеют нормальное распределение с нулевым математическим ожиданием.
2. Результаты наблюдений имеют функцию распределения N (0,1).
3. Результаты наблюдений имеют нормальное распределение.
4. Результаты наблюдений в двух независимых выборках имеют одно и то же нормальное распределение.
5. Результаты наблюдений в двух независимых выборках имеют одно и то же распределение.

Различают нулевую и альтернативную гипотезы. Нулевая гипотеза – гипотеза, подлежащая проверке. Альтернативная гипотеза – каждая допустимая гипотеза, отличная от нулевой. Нулевую гипотезу обозначают Н 0 , альтернативную – Н 1 (от Hypothesis – «гипотеза» (англ.)).

Выбор тех или иных нулевых или альтернативных гипотез определяется стоящими перед менеджером, экономистом, инженером, исследователем прикладными задачами. Рассмотрим примеры.

Пример 11. Пусть нулевая гипотеза – гипотеза 2 из приведенного выше списка, а альтернативная – гипотеза 1. Сказанное означает, то реальная ситуация описывается вероятностной моделью, согласно которой результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин с функцией распределения N (0,σ), где параметр σ неизвестен статистику. В рамках этой модели нулевую гипотезу записывают так:

Н 0: σ = 1,

а альтернативную так:

Н 1: σ ≠ 1.

Пример 12. Пусть нулевая гипотеза – по-прежнему гипотеза 2 из приведенного выше списка, а альтернативная – гипотеза 3 из того же списка. Тогда в вероятностной модели управленческой, экономической или производственной ситуации предполагается, что результаты наблюдений образуют выборку из нормального распределения N (m , σ) при некоторых значениях m и σ. Гипотезы записываются так:

Н 0: m = 0, σ = 1

(оба параметра принимают фиксированные значения);

Н 1: m ≠ 0 и/или σ ≠ 1

(т.е. либо m ≠ 0, либо σ ≠ 1, либо и m ≠ 0, и σ ≠ 1).

Пример 13. Пусть Н 0 – гипотеза 1 из приведенного выше списка, а Н 1 – гипотеза 3 из того же списка. Тогда вероятностная модель – та же, что в примере 12,

Н 0: m = 0, σ произвольно;

Н 1: m ≠ 0, σ произвольно.

Пример 14. Пусть Н 0 – гипотеза 2 из приведенного выше списка, а согласно Н 1 результаты наблюдений имеют функцию распределения F (x ), не совпадающую с функцией стандартного нормального распределения Ф(х). Тогда

Н 0: F (х) = Ф(х) при всех х (записывается как F (х) ≡ Ф(х) );

Н 1: F (х 0) ≠ Ф(х 0) при некотором х 0 (т.е. неверно, что F (х) ≡ Ф(х) ).

Примечание. Здесь ≡ - знак тождественного совпадения функций (т.е. совпадения при всех возможных значениях аргумента х ).

Пример 15. Пусть Н 0 – гипотеза 3 из приведенного выше списка, а согласно Н 1 результаты наблюдений имеют функцию распределения F (x ), не являющуюся нормальной. Тогда

При некоторых m , σ;

Н 1: для любых m , σ найдется х 0 = х 0 (m , σ) такое, что .

Пример 16. Пусть Н 0 – гипотеза 4 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения F (x ) и G (x ), являющихся нормальными с параметрами m 1 , σ 1 и m 2 , σ 2 соответственно, а Н 1 – отрицание Н 0 . Тогда

Н 0: m 1 = m 2 , σ 1 = σ 2 , причем m 1 и σ 1 произвольны;

Н 1: m 1 ≠ m 2 и/или σ 1 ≠ σ 2 .

Пример 17. Пусть в условиях примера 16 дополнительно известно, что σ 1 = σ 2 . Тогда

Н 0: m 1 = m 2 , σ > 0, причем m 1 и σ произвольны;

Н 1: m 1 ≠ m 2 , σ > 0.

Пример 18. Пусть Н 0 – гипотеза 5 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения F (x ) и G (x ) соответственно, а Н 1 – отрицание Н 0 . Тогда

Н 0: F (x ) G (x ) , где F (x )

Н 1: F (x ) и G (x ) - произвольные функции распределения, причем

F (x ) G (x ) при некоторых х .

Пример 19. Пусть в условиях примера 17 дополнительно предполагается, что функции распределения F (x ) и G (x ) отличаются только сдвигом, т.е. G (x ) = F (x - а) при некотором а . Тогда

Н 0: F (x ) G (x ) ,

где F (x ) – произвольная функция распределения;

Н 1: G (x ) = F (x - а), а ≠ 0,

где F (x ) – произвольная функция распределения.

Пример 20. Пусть в условиях примера 14 дополнительно известно, что согласно вероятностной модели ситуации F (x ) - функция нормального распределения с единичной дисперсией, т.е. имеет вид N (m , 1). Тогда

Н 0: m = 0 (т.е. F (х) = Ф(х)

при всех х );(записывается как F (х) ≡ Ф(х) );

Н 1: m 0

(т.е. неверно, что F (х) ≡ Ф(х) ).

Пример 21. При статистическом регулировании технологических, экономических, управленческих или иных процессов рассматривают выборку, извлеченную из совокупности с нормальным распределением и известной дисперсией, и гипотезы

Н 0: m = m 0 ,

Н 1: m = m 1 ,

где значение параметра m = m 0 соответствует налаженному ходу процесса, а переход к m = m 1 свидетельствует о разладке.

Пример 22. При статистическом приемочном контроле число дефектных единиц продукции в выборке подчиняется гипергеометрическому распределению, неизвестным параметром является p = D / N – уровень дефектности, где N – объем партии продукции, D – общее число дефектных единиц продукции в партии. Используемые в нормативно-технической и коммерческой документации (стандартах, договорах на поставку и др.) планы контроля часто нацелены на проверку гипотезы

Н 0: p < AQL

Н 1: p > LQ ,

где AQL – приемочный уровень дефектности, LQ – браковочный уровень дефектности (очевидно, что AQL < LQ ).

Пример 23. В качестве показателей стабильности технологического, экономического, управленческого или иного процесса используют ряд характеристик распределений контролируемых показателей, в частности, коэффициент вариации v = σ/M (X ). Требуется проверить нулевую гипотезу

Н 0: v < v 0

при альтернативной гипотезе

Н 1: v > v 0 ,

где v 0 – некоторое заранее заданное граничное значение.

Пример 24. Пусть вероятностная модель двух выборок – та же, что в примере 18, математические ожидания результатов наблюдений в первой и второй выборках обозначим М (Х ) и М (У ) соответственно. В ряде ситуаций проверяют нулевую гипотезу

Н 0: М(Х) = М(У)

против альтернативной гипотезы

Н 1: М(Х) ≠ М(У).

Пример 25 . Выше отмечалось большое значение в математической статистике функций распределения, симметричных относительно 0, При проверке симметричности

Н 0: F (- x ) = 1 – F (x ) при всех x , в остальном F произвольна;

Н 1: F (- x 0 ) ≠ 1 – F (x 0 ) при некотором x 0 , в остальном F произвольна.

В вероятностно-статистических методах принятия решений используются и многие другие постановки задач проверки статистических гипотез. Некоторые из них рассматриваются ниже.

Конкретная задача проверки статистической гипотезы полностью описана, если заданы нулевая и альтернативная гипотезы. Выбор метода проверки статистической гипотезы, свойства и характеристики методов определяются как нулевой, так и альтернативной гипотезами. Для проверки одной и той же нулевой гипотезы при различных альтернативных гипотезах следует использовать, вообще говоря, различные методы. Так, в примерах 14 и 20 нулевая гипотеза одна и та же, а альтернативные – различны. Поэтому в условиях примера 14 следует применять методы, основанные на критериях согласия с параметрическим семейством (типа Колмогорова или типа омега-квадрат), а в условиях примера 20 – методы на основе критерия Стьюдента или критерия Крамера-Уэлча . Если в условиях примера 14 использовать критерий Стьюдента, то он не будет решать поставленных задач. Если в условиях примера 20 использовать критерий согласия типа Колмогорова, то он, напротив, будет решать поставленные задачи, хотя, возможно, и хуже, чем специально приспособленный для этого случая критерий Стьюдента.

При обработке реальных данных большое значение имеет правильный выбор гипотез Н 0 и Н 1 . Принимаемые предположения, например, нормальность распределения, должны быть тщательно обоснованы, в частности, статистическими методами. Отметим, что в подавляющем большинстве конкретных прикладных постановок распределение результатов наблюдений отлично от нормального .

Часто возникает ситуация, когда вид нулевой гипотезы вытекает из постановки прикладной задачи, а вид альтернативной гипотезы не ясен. В таких случаях следует рассматривать альтернативную гипотезу наиболее общего вида и использовать методы, решающие поставленную задачу при всех возможных Н 1 . В частности при проверке гипотезы 2 (из приведенного выше списка) как нулевой следует в качестве альтернативной гипотезы использовать Н 1 из примера 14, а не из примера 20, если нет специальных обоснований нормальности распределения результатов наблюдений при альтернативной гипотезе.

Предыдущая

Статистика - сложная наука об измерении и анализе различных данных. Как и во многих других дисциплинах, в этой отрасли существует понятие гипотезы. Так, гипотеза в статистике - это какое-либо положение, которое нужно принять или отвергнуть. Причём в данной отрасли есть несколько видов таких допущений, схожих между собой по определению, но отличающихся на практике. Нулевая гипотеза - сегодняшний предмет изучения.

От общего к частному: гипотезы в статистике

От основного определения предположений отходит ещё одно, не менее важное, - статистическая гипотеза есть изучение генеральной совокупности важных для науки объектов, относительно коих учёными делаются выводы. Ее можно проверить с помощью выборки (части генеральной совокупности). Приведём несколько примеров статистических гипотез:

1. Успеваемость всего класса, возможно, зависит от уровня образования каждого учащегося.

2. Начальный курс математики в равной степени усваивается как детьми, пришедшими в школу в 6 лет, так и детьми, пришедшими в 7.

Простой гипотезой в статистике называют такое предположение, которое однозначно характеризует определённый параметр величины, взятой учёным.

Сложная состоит из нескольких или бесконечного множества простых. Указывается некоторая область или нет точного ответа.

Полезно понимать несколько определений гипотез в статистике, чтобы не путать их на практике.

Концепция нулевой гипотезы

Нулевая гипотеза - это теория о том, что есть некие две совокупности, которые не различаются между собой. Однако на научном уровне нет понятия «не различаются», но есть «их сходство равно нулю». От этого определения и было образовано понятие. В статистике нулевая гипотеза обозначается как Н0. Причём крайним значением невозможного (маловероятного) считается от 0.01 до 0.05 или менее.

Лучше разобрать, что такое нулевая гипотеза, пример из жизни поможет. Педагог в университете предположил, что различный уровень подготовки учащихся двух групп к зачётной работе вызван незначительными параметрами, случайными причинами, не влияющими на общий уровень образования (разница в подготовке двух групп студентов равна нулю).

Однако встречно стоит привести пример альтернативной гипотезы - допущения, опровергающего утверждение нулевой теории (Н1). Например: директор университета предположил, что различный уровень в подготовке к зачётной работе у учащихся двух групп вызван применением педагогами разных методик обучения (разница в подготовке двух групп существенна и на то есть объяснение).

Теперь сразу видна разница между понятиями «нулевая гипотеза» и «альтернативная гипотеза». Примеры иллюстрируют эти понятия.

Проверка нулевой гипотезы

Создать предположение - это ещё полбеды. Настоящей проблемой для новичков считается проверка нулевой гипотезы. Именно тут многих и ожидают трудности.

Используя метод альтернативной гипотезы, утверждающей нечто обратное нулевой теории, можно сравнить оба варианта и выбрать верный. Так действует статистика.

Пусть нулевая гипотеза Н0, а альтернативная Н1, тогда:

Н0: c = c0;
Н1: c ≠ c0.

Здесь c - это некое среднее значение генеральной совокупности, которое предстоит найти, а c0 - данное изначально значение, по отношению к которому проверяется гипотеза. Также есть некоторое число Х - среднее значение выборки, по которому определяется c0.

Итак, проверка заключается в сравнении Х и c0, если Х=c0 ,то принимается нулевая гипотеза. Если же Х≠c0, то по условию верной считается альтернативная.

«Доверительный» способ проверки

Существует наиболее действенный способ, с помощью которого нулевая статистическая гипотеза легко проверяется на практике. Он заключается в построении диапазона значений до 95% точности.

Для начала понадобится знать формулу расчёта доверительного интервала:
X - t*Sx ≤ c ≤ X + t*Sx,

где Х - данное изначально число на основе альтернативной гипотезы;
t - табличные величины (коэффициент Стьюдента);
Sx - стандартная средняя ошибка, которая рассчитывается как Sx = σ/√n, где в числителе стандартное отклонение, а в знаменателе - объём выборки.

Итак, предположим ситуацию. До ремонта конвейер в день выпускал 32.1 кг конечной продукции, а после ремонта, как утверждает предприниматель, коэффициент полезного действия вырос, и конвейер, по недельной проверке, начал выпускать 39.6 кг в среднем.

Нулевая гипотеза будет утверждать, что ремонт никак не повлиял на КПД конвейера. Альтернативная гипотеза скажет, что ремонт коренным образом изменил КПД конвейера, поэтому производительность его повысилась.

По таблице находим n=7, t = 2,447, откуда формула примет следующий вид:

39,6 – 2,447*4,2 ≤ с ≤ 39,6 + 2,447*4,2;

29,3 ≤ с ≤ 49,9.

Получается, что значение 32.1 входит в диапазон, а следовательно, значение, предложенное альтернативой - 39.6 - не принимается автоматически. Помните, что сначала проверяется на правильность нулевая гипотеза, а потом - противоположная.

Разновидности отрицания

До этого рассматривался такой вариант построения гипотезы, где Н0 утверждает что-либо, а Н1 это опровергает. Откуда можно было составить подобную систему:

Н0: с = с0;
Н1: с ≠ с0.

Но существует ещё два родственных способа опровержения. К примеру, нулевая гипотеза утверждает, что средняя оценка успеваемости класса больше 4.54, а альтернативная тогда скажет, что средняя успеваемость того же класса менее 4.54. И выглядеть в виде системы это будет так:

Н0: с ⩾ 4.54;
Н1: с < 4.54.

Обратите внимание, что нулевая гипотеза утверждает, что значение больше или равно, а статистическая - что строго меньше. Строгость знака неравенства имеет большое значение!

Статистическая проверка

Статистическая проверка нулевых гипотез заключается в использовании статистического критерия. Такие критерии подчиняются различным законам распределения.

К примеру, существует F-критерий, который рассчитывается по распределению Фишера. Есть T-критерий, чаще всего используемый на практике, зависящий от распределения Стьюдента. Квадратный критерий согласия Пирсона и т. д.

Область принятия нулевой гипотезы

В алгебре есть понятие "область допустимых значений". Это такой отрезок или точка на оси Х, на котором находится множество значений статистики, при которых нулевая гипотеза верна. Крайние точки отрезка - критические значения. Лучи по правую и левую сторону отрезка - критические области. Если найденное значение входит в них, то нулевая теория опровергается и принимается альтернативная.

Опровержение нулевой гипотезы

Нулевая гипотеза в статистике временами очень изворотливое понятие. Во время проверки её можно допустить ошибки двух типов:

1. Отвержение верной нулевой гипотезы. Обозначим первый тип как а=1.
2. Принятие ложной нулевой гипотезы. Второй тип обозначим как а=2.

Стоит понимать, что это не одинаковые параметры, исходы ошибок могут существенно различаться между собой и иметь разные выборки.

Пример ошибок двух типов

Со сложными понятиями легче разобраться на примере.

Во время производства некоего лекарства от учёных требуется чрезвычайная осторожность, так как превышение дозы одного из компонентов провоцирует высокий уровень токсичности готового препарата, от которого пациенты, принимающие его, могут умереть. Однако на химическом уровне выявить передозировку невозможно.
Из-за этого перед тем как выпустить лекарство в продажу, небольшую его дозу проверяют на крысах или кроликах, вводя им препарат. Если большая часть испытуемых умирает, то лекарство в продажу не допускается, если подопытные живы, то лекарство разрешают продавать в аптеках.

Первый случай: на самом деле лекарство было не токсично, но во время эксперимента была допущена оплошность и препарат классифицировали как токсичный и не допустили в продажу. А=1.

Второй случай: в ходе другого эксперимента при проверке другой партии лекарства решено, что препарат не токсичен, и в продажу его допустили, хотя на самом деле препарат был ядовит. А=2.

Первый вариант повлечёт за собой крупные финансовые затраты поставщика-предпринимателя, так как придётся уничтожить всю партию лекарства и начинать с нуля.

Вторая ситуация спровоцирует смерть пациентов, купивших и употреблявших это лекарство.

Теория вероятности

Не только нулевые, но все гипотезы в статистике и экономике разделяют по уровню значимости.

Уровень значимости - процент появления ошибок первого рода (отклонение верной нулевой гипотезы).

Первый уровень - 5% или 0.05, т. е. вероятность ошибиться 5 к 100 или 1 к 20.
второй уровень - 1% или 0.01, т. е. вероятность 1 к 100.
третий уровень - 0.1% или 0.001, вероятность 1 к 1000.

Критерии проверки гипотезы

Если учёным уже был сделан вывод о правильности нулевой гипотезы, то её необходимо подвергнуть проверке. Это необходимо, чтобы исключить ошибку. Существует основной критерий проверки нулевой гипотезы, состоящий из нескольких этапов:

1. Берётся допустимая ошибочная вероятность P=0.05.
2. Подбирается статистика для критерия 1.
3. По известному методу находится область допустимых значений.
4. Теперь вычисляется значение статистики Т.
5. Если Т (статистика) принадлежит области принятия нулевой гипотезы (как в «доверительном» методе), то предположения считаются верными, а значит, и сама нулевая гипотеза остаётся верной.

Именно так действует статистика. Нулевая гипотеза при грамотной проверке будет принята или отвергнута.

Стоит заметить, что для обычных предпринимателей и пользователей первые три этапа бывает очень сложно выполнить безошибочно, поэтому их доверяют профессиональным математикам. Зато 4 и 5 этапы может выполнить любой человек, в достаточной мере знающий статистические методы проверки.