Реферат: Основы дисперсионного анализа
Текст работы
Тема: Основы дисперсионного анализаМетодика проведения дисперсионного анализа.
Формулируем нулевую и альтернативную гипотезы:
Н0: групповые генеральные средние равны a1=a2=…=ak, а также различие выборочных средних получилось случайно, реального влияния фактор не оказывает
H1: различие между выборочными средними не случайно и обусловлено влиянием фактора.
2. Задается уровень значимости α (например, α=0,05 или α=0,01)
3. Вычисляются и
Если , то признается нулевая гипотеза
Если , то вычисляется функция (статистика, которая имеет распределение Фишера)
4. После вычисления находится по таблицам критических значений распределения Фишера.
должно соответствовать числам степеней свободы k-1 и k(r-1) соответственно.
5. Сравниваются и . Если , то нулевая гипотеза отвергается и влияние фактора признается существенным.
6. Таким образом, поведение статистики F, являющейся критерием, напрямую связано с принятием или отвержением нулевой гипотезы о равенстве средних, расчитанных по выборкам. Также отметим, что критерий F называют дисперсионным отношением. Результат дисперсионного анализа сводят в таблицу.
Таблица дисперсионного анализа
| Источник вариации, дисперсии | Сумма квадратов (отклонений) | Число степеней свободы | Средний квадрат MS | ||
| Межгрупповая (фактор А) | k-1 | ||||
| Внутригрупповая (остаточная) | k(r-1) | ||||
| Общая | kr-1 |
ОПРЕДЕЛЕНИЕ: Общей суммой квадратов отклонений называют сумму
(3)
где общая средняя для всей выборки объема n.
ОПРЕДЕЛЕНИЕ: Факторной суммой квадратов отклонений называют сумму
(4)
Сумма характеризует отклонения групповых средних.
ОПРЕДЕЛЕНИЕ: Остаточной суммой квадратов отклонений называют сумму
(5)
Сумма характеризует степень рассеяния значений внутри групп.
Смысл введенных SS:
Если фактор А на каком –то уровне оказывает влияние на признак Х, то в выборке, соответствующей этому уровню, он изменяет групповую среднюю, и эта групповая средняя будет отличаться от общей средней тем сильнее, чем больше воздействие фактора. А чем больше различие групповой средней и общей средней, тем больше и величина . Оказывается, имеет место прямая зависимость степени воздействия фактора и величины .
Для введенных сумм квадратов справедливо равенство.
(6)
Для исследования влияния фактора на групповые средние можно использовать найденные суммы квадратов отклонений, однако более удобным представляется переход от SS к средним квадратам отклонений. Средний квадрат принято обозначать MS(Mean Sqare).
-общая дисперсия (7)
где n-1 число степеней свободы, n-суммарное количество значений во всех к группах.
- факторная дисперсия (8)
где к-1 число степеней свободы, к- количество групп (количество уровней фактора)
остаточная дисперсия (9)
где к(r-1) число степеней свободы для , к-количество групп, r-количество значений в каждой группе.
Для вычисления SS формулы можно преобразовать к более простому виду.
где , (10)
(11)
(12)
Пример: Влияние курения на заболеваемость дыхательных путей.
Среди взрослого населения определенной возрастной категории фиксировалось число заболеваний дыхательных путей за два года. Цель исследования статистическое доказательство влияния курения на заболеваемость органов дыхания. Случайным образом были отобраны 3 группы по 4 человека каждая , из них: І-группа-некурящие; ІІ- стаж курильщика до 5 лет, ІІІ группа-стаж курильщика более 5 лет.
Таким образом, исследуемый фактор А-курение, уровни фактора, А1 А2 А3 –стаж курильщика. Отклик на фактор курения –число заболеваний дыхательных путей. Были получены 12 значений количества заболеваний- это значения хij , где j-номер уровня фактора (j=1,2,3), i-номер элемента в соответствующей выборке, i=1,2,3,4:
(16)
Предполагаем, что выборка из нормальной генеральной совокупности.
Проведем дисперсионный анализ для установления влияния фактора курения на заболеваемость органов дыхания.
Формулируем гипотезы:
H0- курение не влияет на заболеваемость органов дыхания
H1-курение существенно влияет на заболеваемость органов дыхания.
Таблица 1
| Номер испытания | Уровень фактора | ||
| A1 | A2 | A3 | |
| 1 2 3 4 | 1 0 1 2 | 3 2 2 1 | 3 4 5 3 |
| T1=4 R1=6 | T2=8 R2=18 | T3=15 R3=59 |
Для вычисления SS используем формулы (3-5) или (10-12).
| 1 метод | 2 метод |
| T1=1+0+1+2=4 T2=3+2+2+1=8 T3=3+4+5+3=15 R1=12+02+12+22=6 R2=32+22+22+12=18 R3=32+42+52+32=59 R=6+18+59=83 Тогда |
,
Найдем число степеней свободы для каждой суммы квадратов MS по формулам (7-9).
Полученные значения занесем в таблицу дисперсионного анализа (таблица 4), в которой также кстати привести наблюдаемое и критическое значения критерия Ғ.
Число степеней свободы для : n-1=12-1=11
: k-1=2
: k(r-1)=3(4-1)=9
Составим таблицу
Таблица 2
| Источник вариации | Сумма квадратов SS | Число степеней свободы df | Средний квадрат MS | ||
| Межгрупповая (фактор А) Случайные отклонения (остаточная) | 15,5 6,75 | 2 9 | 7,75 0,75 | ||
| Общая | 22,25 | 11 | - |
АНАЛИЗ ВЫЖИВАЕМОСТИ
ОПРЕДЕЛЕНИЕ: Методы Анализа выживаемости – это методы, применяемые к
цензурированным или, как иногда говорят, неполным данным.
Отметим также, что в этих методах используется так называемая функция выживания.
ОПРЕДЕЛЕНИЕ: Функция выживания - это вероятность того, что объект проживет время больше t с момента начала наблюдения S(t) = P(T>t).
Как правило, вместо этой формулы используют другую S(t) = 1 - P(TАнализ таблиц времен жизни
Наиболее естественным способом описания выживаемости в выборке является построение Таблиц времен жизни.
Техника таблиц времен жизни - один из старейших методов анализа данных о выживаемости (времен отказов). Такую таблицу можно рассматривать как "расширенную" таблицу частот. Область возможных времен наступления критических событий (смертей, отказов и др.) разбивается на некоторое число интервалов. Для каждого интервала вычисляется число и долю объектов, которые в начале рассматриваемого интервала были "живы", число и долю объектов, которые "умерли" в данном интервале, а также число и долю объектов, которые были изъяты или
цензурированы
в каждом интервале.
Рассмотрим два способа составления таблицы времени жизни: первый – способ Катлера –Эдерера более применим для больших наборов данных, второй – способ Каплана – Мейера для малого числа обследуемых.
Способ Катлера - Эдерера
| Интервалы времени | Количество наблюдаемых объектов к началу интервала | Количество событий произошедших в данном интервале времени | Количество выбываний, произошедших в данном интервале времени | Доля наступления события в интервале | Доля выживших в интервале | Комулятивная доля выживших |
| i | ni | di | wi | qi | pi=1-qi | Si=pipi-1…p1 |
Число изучаемых объектовДоля умершихДоля выжившихКумулятивная доля выживших (функция выживания)Плотность вероятностиФункция интенсивностиМедиана ожидаемого времени жизниОбъем выборки
ОПРЕДЕЛЕНИЕ: Число изучаемых объектов -это число объектов, которые были "живы" в начале рассматриваемого временного интервала.
ОПРЕДЕЛЕНИЕ: Доля исследуемых, для которых событие наступило в i-ом интервале - это отношение числа объектов, для которых событие наступило в i-ом интервале, к числу объектов, изучаемых на этом интервале:
qi=dini-12wi, где wi-количество выбываний, произошедших в данном интервале.
ОПРЕДЕЛЕНИЕ: Доля выживших, т.е. тех, для которых событие не наступило в i-ом интервале - эта доля равна единице минус доля исследуемых, для которых событие наступило в i-ом интервале: pi=1-qi.
ОПРЕДЕЛЕНИЕ: Кумулятивная доля выживших (функция выживания) - это кумулятивная доля выживших к началу соответствующего временного интервала. Поскольку вероятности выживания считаются независимыми на разных интервалах, эта доля равна произведению долей выживших объектов по всем предыдущим интервалам. Полученная доля как функция от времени называется также выживаемостью или функцией выживания [точнее, это оценка функции выживания].
Si=p1∙p2∙…∙pi-1∙piСпособ Каплана - Мейера
| Момент времени | Количество наблюдаемых объектов к моменту времени | Количество событий произошедших в данный момент времени | Количество выбываний, произошедших в данный момент времени | Доля наступления событияе | Доля выживших | Комулятивная доля выживших |
| i | ni | di | wi | qi | pi=1-qi | Si=pipi-1…p1 |
qi=dini, St=(1-dini) , где di - число умерших в момент времени i, ni - число наблюдавшихся к моменту i.
ОПРЕДЕЛЕНИЕ: Медиана ожидаемого времени жизни - это точка на временной оси, в которой кумулятивная функция выживания равна 0.5.
Объем выборки. Чтобы получить надежные оценки трех основных функций (функции выживания, плотности вероятности и функции интенсивности) и их стандартных ошибок на каждом временном интервале, рекомендуется использовать не менее 30 наблюдений.
Полученные результаты расчетов могут быть представлены в виде графика.
ось Ох – время, Оу - выживаемость
Рис 5. Кривая выживаемости и доверительный интервал.
Точки на графике соответствуют моментам, когда умер хотя бы один из наблюдавшихся.
Точки соединяются ступенчатой линией, этот график является выборочной оценкой кривой выживаемости.
Кроме того, построенную кривую можно охарактеризовать и обобщенным показателем, например, медианой. Для этого находят точку, в которой кривая выживаемости впервые опустилась ниже 0,5.
Оценку точности приближения дает стандартная ошибка выживаемости; ее можно рассчитать по формуле Гринвуда
SESi=Siqini-di-12wi, где сумма берется по всем интервалам (моментам).
Доверительные границы для функции выживаемости:
St-z∝∙SEStвремя
| ti | ni | di | qi=di/ni | pi=1-qi | SE | zαSE | Si- zαSE | Si-+zαSE | |
| 12 | 23 | 1 | 1/23=0.04 | 1-0.04=0.96 | 0.96 | 0.04 | 0.08 | 0.96- -0.08=0.88 | 0.96+0.08==1.04≈1 |
| 15 | 22 | 2 | 0.09 | 0.91 | 0.96*0.91=0.87 | 0.07 | 0.14 | 0.87-0.14= =0.73 | 0.87+0.14= =1.01≈1 |
| 21 | 19 | 1 | 0.05 | 0.95 | 0.96*0.91*0.95= =0.82 | 0.08 | 0.16 | 0.82-0.16= =0.66 | 0.82+0.16= =0.98 |
| 24 | 16 | 1 | 0.06 | 0.94 | 0.77 | 0.09 | 0.18 | 0.59 | 0.95 |
| 26 | 15 | 1 | 0.07 | 0.93 | 0.72 | 0.098 | 0.19 | 0.53 | 0.91 |
| 30 | 11 | 1 | 0.09 | 0.91 | 0.66 | 0.109 | 0.21 | 0.45 | 0.87 |
t=12→,
t=15→,
t=21→,
t=24→ ,
t=26→ ,
t=30→
.

Задания.
Получены следующие данные о плодовитости мышей при облучении рентгеновыми лучами:
| Группы | Число мышат от отдельных самок | |||
| Контроль | 10 | 12 | 11 | 10 |
| Доза 100 р | 8 | 10 | 7 | 9 |
| Доза 200 р | 7 | 9 | 6 | 4 |
Для изучения прогностической ценности шкалы повседневной работы на дому (шкала для оценки общего состояния пожилого человека) было проведено исследование, в которое были включены люди примерно одного возраста. Средний возраст 78,4 года, стандартное отклонение 7,2 года. В результате 4-летнего наблюдения были получены следующие данные:
| Время, мес. | 14 | 20 | 24 | 25+ | 28 | 30 | 36+ | 37+ | 38 | 42+ | 43+ | 48 | 48+ |
| Умерли или выбыли | 1 | 2 | 3 | 1 | 1 | 2 | 1 | 1 | 2 | 1 | 1 | 2 | 62 |
Комментарии
Добавить комментарий