Разлика между централна тенденция и дисперсия

Разлика между централна тенденция и дисперсия
Разлика между централна тенденция и дисперсия

Видео: Разлика между централна тенденция и дисперсия

Видео: Разлика между централна тенденция и дисперсия
Видео: Математическое Ожидание, Дисперсия, Стандартное Отклонение за 5 минут 2024, Ноември
Anonim

Централна тенденция срещу дисперсия

В описателната и инференциалната статистика се използват няколко индекса за описание на набор от данни, съответстващ на неговата централна тенденция, дисперсия и неравномерност: трите най-важни свойства, които определят относителната форма на разпределението на набор от данни.

Каква е централната тенденция?

Централната тенденция се отнася до и локализира центъра на разпределението на ценностите. Средната стойност, модата и медианата са най-често използваните индекси при описване на централната тенденция на набор от данни. Ако набор от данни е симетричен, тогава медианата и средната стойност на набора от данни съвпадат една с друга.

При даден набор от данни средната стойност се изчислява, като се вземе сборът от всички стойности на данните и след това се раздели на броя на данните. Например теглото на 10 души (в килограми) се измерва на 70, 62, 65, 72, 80, 70, 63, 72, 77 и 79. Тогава средното тегло на десетте души (в килограми) може да бъде изчислено по следния начин. Сборът на теглата е 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Средна стойност=(сума) / (брой данни)=710 / 10=71 (в килограми). Разбираемо е, че отклоненията (точки от данни, които се отклоняват от нормалната тенденция) са склонни да влияят на средната стойност. По този начин, при наличието на извънредни стойности само средната стойност няма да даде правилна картина за центъра на набора от данни.

Медианата е точката от данни, намираща се точно в средата на набора от данни. Един от начините за изчисляване на медианата е да подредите точките от данни във възходящ ред и след това да локализирате точката от данни в средата. Например, ако веднъж бъде подреден, предишният набор от данни изглежда като 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Следователно (70+72)/2=71 е в средата. От това се вижда, че медианата не трябва да бъде в набора от данни. Медианата не се влияе от наличието на извънредни стойности. Следователно медианата ще служи като по-добра мярка за централната тенденция при наличието на отклонения.

Режимът е най-често срещаната стойност в набора от данни. В предишния пример стойностите 70 и 72 се срещат два пъти и по този начин и двете са режими. Това показва, че в някои дистрибуции има повече от една модална стойност. Ако има само един режим, се казва, че наборът от данни е едномодален, в този случай наборът от данни е бимодален.

Какво е дисперсия?

Дисперсията е количеството разпространение на данните около центъра на разпределението. Диапазонът и стандартното отклонение са най-често използваните мерки за дисперсия.

Диапазонът е просто най-високата стойност минус най-ниската стойност. В предишния пример най-високата стойност е 80, а най-ниската стойност е 62, така че диапазонът е 80-62=18. Но диапазонът не дава достатъчна картина за дисперсията.

За да се изчисли стандартното отклонение, първо се изчисляват отклоненията на стойностите на данните от средната стойност. Средната квадратична стойност на отклоненията се нарича стандартно отклонение. В предишния пример съответните отклонения от средната стойност са (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 и (79 – 71)=8. Сумата от квадратите на отклонението е (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Стандартното отклонение е √(366/10)=6,05 (в килограми). Освен ако наборът от данни не е силно изкривен, от това може да се заключи, че по-голямата част от данните са в интервала 71±6,05 и това наистина е така в този конкретен пример.

Каква е разликата между централната тенденция и дисперсията?

• Централната тенденция се отнася до и локализира центъра на разпределението на стойностите

• Дисперсията е количеството разпространение на данни около центъра на набор от данни.

Препоръчано: