Раздел 4. Методы математической статистики

Первоначальные понятия математической статистики: выборка, числовые характеристики распределений.

Вся подлежащая изучению совокупность объектов называется генеральной совокупностью. Понятие генеральной совокупности в определённом смысле аналогично понятию случайной величины, так как полностью обусловлено определённым комплексом условий. Та часть объектов, которая отобрана для непосредственного изучения из генеральной совокупности, называется выборкой.

Выборка называется независимой (несвязной), если полученные результаты измерения некоторого свойства (признака) у испытуемых одной выборки не оказывает влияния на результаты измерений этого же свойства (признака) у испытуемых другой выборки. И, напротив, выборки называются зависимыми (связными), если процедура одного эксперимента на одной выборке оказывает влияние на другую выборку.

Результаты экспериментов удобно располагать в таблицах, именуемые вариационным или статистическим рядами.

Вариационным рядом распределения называют ранжированный в порядке возрастания (или убывания) двойной ряд чисел, показывающий сколько раз встречается значения признака в выборке. Числа, показывающие, сколько раз встречаются варианты из данного интервала, называются частотами, а отношение их к общему числу наблюдений – относительными частотами.

Первоначальный анализ полученных числовых данных проводят с помощью числовых характеристик.

Мода – это такое числовое значение, которое встречается в выборке наиболее часто.

Медиана – величина, по отношению к которой по крайне мере 50 % выборочных значений меньше нее и по крайней мере 50 % — больше.

Среднее арифметическое ряда из n числовых значений \[{{X}_{1}},{{X}_{2}},..,{{X}_{n}}\] подсчитывается по формуле \[\bar{X}=\frac{1}{n}\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)=\frac{{{X}_{1}}+{{X}_{2}}+..+{{X}_{n}}}{n}=\frac{1}{n}\left( \sum\limits_{i=1}^{n}{{{x}_{i}}\cdot {{f}_{i}}} \right)\].

Разброс (размах) – разность между максимальной и минимальной величинами данного конкретного вариационного ряда \[R={{X}_{\max }}-{{X}_{\min }}\].

Дисперсия – мера рассеяния случайной величины\[D=\frac{1}{n}\cdot {{\sum\limits_{i=1}^{n}{\left( {{X}_{i}}-\bar{X} \right)}}^{2}}\].

Для того чтобы приблизить размерность дисперсии к размерности измеряемого признака, применяют операцию извлечения квадратного корня из дисперсии. Полученную величину называют стандартным отклонением.

Степень свободы – число свободно варьирующих единиц в составе выборки. Для ряда статистических методов расчет числа степеней свободы имеет свою специфику.

Пример № 9.1. Пусть нашей задачей является выявление картины успеваемости студентов, сдавших зачет по курсу «Математика». На курсе 50 человек. Полученные студентом оценки представляют собой (в порядке алфавитного списка) следующий набор чисел: 3, 4, 5, 4, 3, 3, 5, 4, 3, 5, 5, 2, 3, 5, 3, 5, 3, 5, 4, 4, 3, 3, 4, 3, 4, 3, 5, 3, 3, 4, 3, 4, 3, 5, 3, 4, 4, 3, 5, 3, 3, 5, 4, 2, 5, 3, 4, 2, 3, 5. Как видно, числа повторяются и работать с ними не удобно. Постройте полигон, гистограмму, кумуляту.

1. Составим вариационный ряд, для этого запишем в таблицу сколько раз встречаются варианты «2», «3», «4», «5».

Варианты \[{{x}_{i}}\] 2 3 4 5
Частоты \[{{f}_{i}}\] 3 21 13 13
Относительные частоты \[{{\tilde{f}}_{i}}\] 0,06 0,42 0,26 0,26

2. Найдем числовые характеристики признака, означающее: баллы, полученные по предмету «Математика».

  • Мода \[{{M}_{0}}=\frac{4+5}{2}=4,5\].
  • Медиана \[{{M}_{e}}=4\].
  • Среднее арифметическое \[\bar{X}=\frac{2\cdot 3+3\cdot 21+4\cdot 13+5\cdot 13}{50}=3,72\].
  • Размах \[R=5-2=3\].
  • Дисперсия

\[D=\frac{1}{50}\left( 3\cdot {{\left( 2-3,72 \right)}^{2}}+21\cdot {{\left( 3-3,72 \right)}^{2}}+13\cdot {{\left( 4-3,72 \right)}^{2}}+13\cdot {{\left( 5-3,72 \right)}^{2}} \right)=0,81\].

  • Стандартное отклонение \[\sigma =\sqrt{D}=0,9\].

3. Построим гистограмму.

Задание № 9.1. Составьте вариационный ряд: 18, 19, 19, 22, 23, 17, 18, 21, 18, 19, 20, 20, 21, 18, 19, 19, 21, 22, 23, 17. Найдите числовые характеристики, постройте полигон, гистограмму, кумуляту.

Важнейшей задачей выборочного метода является оценка параметров (числовых характеристик) генеральной совокупности по данным выборки. Интервальной оценкой параметра γ называется числовой интервал, который с заданной вероятностью покрывает неизвестное значение параметра γ. Такой интервал носит название «доверительного интервала».

Пример № 9.2. При обследовании выработки 1000 сотрудников в отчетном году по сравнению с предыдущим было отобрано 100 сотрудников. Полученные данные представлены в таблице. Необходимо определить: а) вероятность того, что средняя выработка сотрудников отличается от средней выборочной не более, чем на 1 %; б) границы, в которых с вероятностью 0,9545 заключена средняя выработка сотрудников. Рассмотреть случаи повторной и бесповторной выборки.

i Выработка в отчетном году в процентах к предыдущему периоду Частота (количество сотрудников) \[{{n}_{i}}\] Частотность (доля сотрудников) \[{{w}_{i}}=\frac{{{n}_{i}}}{n}\] Накопленная частота \[n_{i}^{}\] Накопленная частотность \[w_{i}^{}=\frac{n_{i}^{}}{n}\]
1 94-100 3 0,03 3 0,03
2 100-106 7 0,07 10 0,10
3 106-112 11 0,11 21 0,21
4 112-118 20 0,20 41 0,41
5 118-124 28 0,28 69 0,69
6 124-130 19 0,19 88 0,88
7 130-136 10 0,10 98 0,98
8 136-142 2 0,02 100 1,00
  Σ 100 1,00

Решение. Из условия имеем N=1000, n=100.

1. Вычислим среднюю арифметическую и дисперсию упрощенным способом, используя не первоначальные варианты, а новые варианты \[{{u}_{i}}=\frac{{{x}_{i}}-c}{k}\], где с и k – специально подобранные константы.

Возьмем постоянную k, равную величине интервала, т.е. k=6, и постоянную с, равную середине пятого интервала, т.е. с=121. Новые варианты \[{{u}_{i}}=\frac{{{x}_{i}}-c}{k}=\frac{{{x}_{i}}-121}{6}\]. Составим новую таблицу.

i Интервалы х Середина интервала \[{{n}_{i}}\] Новая переменная \[{{u}_{i}}=\frac{{{x}_{i}}-121}{6}\] \[n{}_{i}\] \[{{u}_{i}}n{}_{i}\] \[u_{i}^{2}n{}_{i}\] \[{{u}_{i}}+1\] \[{{\left( {{u}_{i}}+1 \right)}^{2}}n{}_{i}\]
1 94-100 97 -4 3 -12 48 -3 27
2 100-106 103 -3 7 -21 63 -2 28
3 106-112 109 -2 11 -22 44 -1 11
4 112-118 115 -1 20 -20 20 0 0
5 118-124 121 0 28 0 0 1 28
6 124-130 127 1 19 19 19 2 76
7 130-136 133 2 10 20 40 3 90
8 136-142 139 3 2 6 18 4 32
  Σ 100 -30 252 292

\[\bar{X}=\frac{\sum\limits_{i=1}^{m}{{{u}_{i}}{{n}_{i}}}}{n}\cdot k+c=\frac{-30}{100}\cdot 6+121=119,2\].

\[D=\frac{\sum\limits_{i=1}^{m}{u_{i}^{2}{{n}_{i}}}}{n}\cdot {{k}^{2}}-{{\left( \bar{X}-c \right)}^{2}}=\frac{252}{100}\cdot {{6}^{2}}-{{\left( 119,2-121 \right)}^{2}}=87,48\].

2. Найдем среднюю квадратичную ошибку выборки для средней:

– для повторной выборки по формуле \[{{\sigma }_{{\bar{X}}}}=\sqrt{\frac{{{\sigma }^{2}}}{n}}\approx \sqrt{\frac{D}{n}}\approx \sqrt{\frac{87,48}{100}}=0,9354\];

– для бесповторной выборки по формуле

\[{{{\sigma }’}_{{\bar{X}}}}\approx \sqrt{\frac{D}{n}\left( 1-\frac{n}{N} \right)}\approx \sqrt{\frac{87,48}{100}\left( 1-\frac{100}{1000} \right)}=0,887\left( % \right)\].

Теперь искомую доверительную вероятность находим по формуле \[P\left( \left| \bar{X}-{{{\bar{X}}}_{0}} \right|\le \vartriangle  \right)=\Phi \left( t \right)=\gamma \to P\left( \left| \bar{X}-{{{\bar{X}}}_{0}} \right|\le 1 \right)=\Phi \left( \frac{1}{0,935} \right)=\Phi \left( 1,07 \right)=0,715\].

\[P\left( \left| \bar{X}-{{{\bar{X}}}_{0}} \right|\le \vartriangle  \right)=\Phi \left( t \right)=\gamma \to P\left( \left| \bar{X}-{{{\bar{X}}}_{0}} \right|\le 1 \right)=\Phi \left( \frac{1}{0,887} \right)=\Phi \left( 1,13 \right)=0,741\].

Итак, вероятность того, что выборочная средняя отличается от генеральной средней не более чем на 1 %, равна 0,715 для повторной и 0,741 для бесповторной выборки.

3. Найдем предельные ошибки повторной и бесповторной выборок по формуле \[\Delta =t{{\sigma }_{{\bar{X}}}}\]. Из того, что \[\Phi \left( t \right)=0,9545\], согласно статистической таблице, \[t=2\]. Доверительный интервал определяем по формуле \[\bar{X}-\Delta \le {{\bar{X}}_{0}}\le \bar{X}+\Delta \]. Подставим известные значения:

– \[119,2-2\cdot 0,935\le {{\bar{X}}_{0}}\le 119,2+2\cdot 0,935\] или \[117,33\le {{\bar{X}}_{0}}\le 121,07\] для повторной выборки;

– \[119,2-2\cdot 0,887\le {{\bar{X}}_{0}}\le 119,2+2\cdot 0,887\] или \[117,43\le {{\bar{X}}_{0}}\le 120,97\] для бесповторной выборки.

4. Таким образом, с надежностью 0,9545 средняя выработка сотрудников заключена в границах от 117,33 % до 121,07 %, если выборка повторная, и от 117,43 % до 120,97 %, если выборка бесповторная.

{Для проведения выборочного наблюдения весьма важно правильно установить объём выборки n, который в значительной степени определяет необходимые при этом временные, трудовые и стоимостные затраты. Объем бесповторной выборки рассчитывается по формуле \[{n}’=\frac{N{{t}^{2}}{{\sigma }^{2}}}{{{t}^{2}}{{\sigma }^{2}}+N{{\Delta }^{2}}}\]}.

5. По условию примера № 2 определить объем выборки, при котором с вероятностью 0,9973 отклонение средней выработки сотрудников от средней выработки всех сотрудников фирмы не превзойдет 1 %.

Дисперсия – \[{{\sigma }^{2}}=D=87,48\]. По условию \[\gamma =\Phi \left( t \right)=0,9973\], согласно статистической таблице \[t=3\]. Найдем объем бесповторной выборке по формуле:

\[{n}’=\frac{N{{t}^{2}}{{\sigma }^{2}}}{{{t}^{2}}{{\sigma }^{2}}+N{{\Delta }^{2}}}=\frac{1000\cdot {{3}^{2}}\cdot 87,48}{{{3}^{2}}\cdot 87,48+1000\cdot 1}=440,5\approx 441\].

Задание № 9.2. Из коллектива 2000 человек, для тестирования на профпригодность было отобрано 200 человек, среди которых оказалось 184 профпригодных. Найти: а) вероятность того, что доля не профпригодных сотрудников во всем коллективе отличается от полученной доли в выборке не более чем на 0,02; б) границы, в которых с надежностью 0,95 заключена доля непрофпригодных сотрудников во всем коллективе. Каким должен быть объем выборки, чтобы те же границы гарантировать с надежностью 0,9973?

Проверка статистических гипотез

Вернуться к содержанию