Статистика за обучение, от презентация до мерки за разпространение на данни

Статистиката е математическа наука, която изучава събирането, обработката, анализа и представянето на данни. Статистиката се използва широко в застрахователните компании, една от които е да се определи размерът на премията в една застрахователна полица. Всеки притежател на застраховка е длъжен да плати вноска, наречена премия. Платената премия е в съответствие със застрахователното покритие, което той получава.

Тук застрахователната компания използва статистика, така че размерът на премията да съответства на размера на покритието, който може да бъде предоставен на притежателя на застраховката. По този начин и двете страни се възползват от това.

Както вече споменахме, статистическите данни не само събират и обработват, но и представят данни. Статистиката също така използва няколко мерки за разпределение на данни при обработката на данни. Днес ще обсъдим видовете представяне, както и размера на разпространението на данните в статистиката.

Видове представяне на данни

Видовете представяне на данни в статистиката включват таблици за честотно разпределение, хистограми, полигони и огиви.

Първата форма на представяне на данни е да се използва таблица за честотно разпределение. Както подсказва името, използваме таблица, за да покажем вида и количеството получени данни. Таблицата за честотно разпределение също има няколко типа, а именно таблицата за честотно разпределение за единични данни и групови данни.

(Прочетете също: Две данни за измерване в статистиката)

Една таблица за разпределение на честотата на данните се използва за представяне на малки количества данни, поне по-малко от 30 данни. Пример за представяне на данни с помощта на единична таблица за разпределение на честотата на данни е както следва.

Данните по-долу са тестовите резултати от 30 ученици. Сервирайте в една таблица за разпределение на честотата на данните!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Ако обърнем внимание, най-ниският получен резултат от теста е 3, докато най-високият резултат е 10. Тогава от тези резултати се изчислява броят на студентите, които го получават. За оценка 3, например, само 1 ученик. За 4 клас има 4 ученика и т.н. След това тази цифра е представена в таблица по следния начин.

турбини на земята от офшорни вятърни паркове

Следващият тип таблица за честотно разпределение е таблицата за честотно разпределение на груповите данни. Тази таблица се използва за представяне на много данни, което е над 30 данни. Нека разгледаме примера по-долу.

Следва височината на чили растенията (в милиметри) в чили плантация. Представете данните в таблица за разпределение на групови данни!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 132 128 124

За разлика от единичните данни, тук трябва да изчислим броя на класовете и дължините на класовете, които ще бъдат показани в таблицата. Използвайки данните по-горе, ето изчисленията.

Много данни (n) = 40

Максимална височина (xмакс) = 135

Минимална височина (xмин) = 120

Обхват (J) = xмакс - хмин = 135 – 120 = 15

Брой класове (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868 ... ≈ k = 6

Дължината на класа (c) = J / k = 15/6 = 2,5 ≈ c = 3

От тези резултати можем да покажем таблицата за групово разпределение на данни, както следва.

турбини на земята от офшорни вятърни паркове

След това ще обсъдим други видове представяне на групирани данни, а именно под формата на хистограми, честотни полигони и огиви. Разгледайте таблицата с честотата по-долу, която съдържа информация за теглото на 80 членове на спортни клубове.

турбини на земя на офшорни вятърни паркове

За да представим данните с помощта на хистограмна графика, първо изграждаме декартова диаграма. Оста x показва горната и долната граница на всеки клас, докато оста y показва честотата.

статистика4 (1)

За разлика от хистограмата, графика на честотния многоъгълник взема средната стойност на интервала на класа и го показва с редове според честотата.

статистика5 (1)

И накрая, представянето на данните използва положителна кумулативна или отрицателна крива на честотата. Първо, маркирайте кумулативните честотни стойности за всеки клас интервали по оста y. След това маркирайте координатите на точките според горните двойки от класа на интервала и кумулативната честота. Свържете точките в гладка крива.

Размер на разпространението на данни

В статистиката има два вида измерване на данни, а именно размера на концентрацията на данни и размера на разпределението на данните. Какво е обяснението и разликата?

Размерът на центъра за данни е стойност, която представлява местоположението на данните. В измерването, центрирано на данни, има средно, режим и медиана.

Средното или средното е коефициентът между сумата на всички наблюдавани данни с голям брой данни. Средното може да се формулира по следния начин.

Средно = (Сума от всички данни) / (Много данни)

За да разберем по-добре, нека да работим по следния примерен проблем. Броят часове на седмица, необходими на 5 души за социални дейности в тяхната среда, са 10, 7, 13, 20 и 15 часа. Определете средния брой часове на седмица, които отделят за социални дейности!

Въз основа на горните проблеми можем да въведем числата във формулата, както следва.

Средно = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Това означава, че средният брой часове, които те отделят за социални дейности, е 13 часа.

Освен средното или средното, има и режими. Режимът е стойността, която се появява най-често в данните. Нека разгледаме пример за следния проблем.

По-долу са данните за теглото (в килограми) на някои ученици от 7. клас. Определете режима на данните!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

На първо място, трябва да преброим колко пъти всяка стойност се появява в данните. Въз основа на тези данни получаваме 31 (x3), 32 (x2), 33 (x1), 34 (x2) и 35 (x4). Тъй като 35 се среща най-често, режимът на горните данни е 35.

Последният тип центрирана мярка за данни е медианата. Медианата разделя данните на две равни части, така че медианата е средната стойност на сортираните данни.

За да определим медианата, първо трябва да сортираме всички данни в низходящ или възходящ ред. Второ, дефинирайте много данни и ги символизирайте като "n". Ако n е нечетно, формулата, която използваме, е както следва.

Медиана = номер на данните - ((n + 1) / 2)

Междувременно, ако n е четно, ще използваме формулата по-долу.

Медиана = (данни i (n / 2) + данни i (n / 2 + 1)) / 2

Второто измерване на данните в статистиката е мярка за разпространението на данните. Размерът на разпространението на данните е стойност, която посочва колко далеч са данните от центъра за данни. Размерът на разпределението на данните се състои от диапазон, квартил и интерквартил.

Обхватът е разликата между най-голямата стойност на данните и най-малката стойност на данните. Можем да достигнем до обхвата, като извадим най-големите данни от най-малките. Например, ако в един клас най-високият ученик има височина 160 см, а най-ниският ученик има височина 143 см, ще получим обхват 23 см.

Междувременно квартилът е групирането на статистически данни на четири равни части. Размерът на квартила е разделен на 3, а именно долният квартил (Q1), средният квартил (Q2 или медиана), а горният квартил (Q3). За да определим всеки квартил, трябва да предприемем няколко стъпки.

Първо сортирайте данните във възходящ или низходящ ред. Второ, определете средната или средната стойност на данните. Трето, намерете долния квартил (Q1), което е средната стойност на групата данни под медианата (Q2). Накрая намерете горния квартил (Q3), а именно средната стойност на групата данни над медианата (Q2).

Последният тип мярка за разпределение на данни е интерквартилният обхват. Интерквартилният диапазон е разликата между горните и долните квартили. Формулата е следната.

Въпрос:д = Q3 - Q1

скорошни публикации

$config[zx-auto] not found$config[zx-overlay] not found