Abaterea standard a formulei numărului de victime. Estimarea varianței, abaterea standard

X i - variabile aleatoare (actuale);

valoarea medie a variabilelor aleatoare pentru eșantion se calculează folosind formula:

Aşa, varianța este pătratul mediu al abaterilor . Adică, valoarea medie este mai întâi calculată, apoi luată diferența dintre fiecare valoare originală și valoarea medie este pătrat , se adaugă și apoi se împarte la numărul de valori din populația dată.

Diferența dintre o valoare individuală și medie reflectă măsura abaterii. Este pătrat astfel încât toate abaterile să devină exclusiv numere pozitive și pentru a evita distrugerea reciprocă a abaterilor pozitive și negative atunci când le însumăm. Apoi, având în vedere abaterile pătrate, calculăm pur și simplu media aritmetică.

Răspunsul la cuvântul magic „dispersie” constă doar în aceste trei cuvinte: medie - pătrat - abateri.

Abaterea standard (MSD)

Luând rădăcina pătrată a varianței, obținem așa-numita „ abatere standard”. Sunt nume „abatere standard” sau „sigma” (de la numele literei grecești σ .). Formula pentru abaterea standard este:

Aşa, dispersia este pătrat sigma sau abaterea standard este pătrat.

Deviația standard, evident, caracterizează și măsura dispersiei datelor, dar acum (spre deosebire de dispersie) poate fi comparată cu datele originale, deoarece au aceleași unități de măsură (acest lucru este clar din formula de calcul). Intervalul de variație este diferența dintre valorile extreme. Deviația standard, ca măsură a incertitudinii, este, de asemenea, implicată în multe calcule statistice. Cu ajutorul acestuia, se determină gradul de acuratețe al diferitelor estimări și prognoze. Dacă variația este foarte mare, atunci și abaterea standard va fi mare și, prin urmare, prognoza va fi inexactă, ceea ce va fi exprimat, de exemplu, în intervale de încredere foarte largi.

Prin urmare, în metodele de prelucrare a datelor statistice în evaluările imobiliare, în funcție de acuratețea cerută a sarcinii, se utilizează regula două sau trei sigma.

Pentru a compara regula două sigma și regula trei sigma, folosim formula lui Laplace:

F - F,

unde Ф(x) este funcția Laplace;



Valoarea minima

β = valoarea maximă

s = valoarea sigma (deviația standard)

a = medie

În acest caz, o formă particulară a formulei lui Laplace este utilizată atunci când limitele α și β ale valorilor variabilei aleatoare X sunt distanțate egal de centrul distribuției a = M(X) de o anumită valoare d: a = a-d, b = a+d. Sau (1) Formula (1) determină probabilitatea unei abateri date d a unei variabile aleatoare X cu o lege de distribuție normală din așteptarea sa matematică M(X) = a.

Dacă în formula (1) luăm succesiv d = 2s și d = 3s, obținem: (2), (3).

Regula două sigma

Să ilustrăm geometric regula două sigma. În fig. Figura 6 prezintă o curbă Gaussiană cu centrul de distribuție a. Aria delimitată de întreaga curbă și axa Ox este egală cu 1 (100%), iar aria trapezului curbiliniu dintre abscisele a–2s și a+2s, conform regulii două sigma, este egală la 0,954 (95,4% din suprafața totală). Aria zonelor umbrite este 1-0,954 = 0,046 (»5% din suprafața totală). Aceste zone sunt numite regiunea critică a variabilei aleatoare. Valorile unei variabile aleatorii care se încadrează în regiunea critică sunt puțin probabile și, în practică, sunt acceptate convențional ca imposibile.

Probabilitatea unor valori imposibile condiționat se numește nivelul de semnificație al unei variabile aleatorii. Nivelul de semnificație este legat de probabilitatea de încredere prin formula:

unde q este nivelul de semnificație exprimat ca procent.

Regula trei sigma

La rezolvarea problemelor care necesită o mai mare fiabilitate, atunci când probabilitatea de încredere (Pd) este luată egală cu 0,997 (mai precis, 0,9973), în locul regulii două sigma, conform formulei (3), se utilizează regula trei sigma



Conform regula trei sigma cu o probabilitate de încredere de 0,9973, aria critică va fi aria valorilor atributelor din afara intervalului (a-3s, a+3s). Nivelul de semnificație este de 0,27%.

Cu alte cuvinte, probabilitatea ca valoarea absolută a abaterii să depășească de trei ori abaterea standard este foarte mică, și anume 0,0027 = 1-0,9973. Aceasta înseamnă că doar 0,27% din cazuri se va întâmpla acest lucru. Astfel de evenimente, bazate pe principiul imposibilității unor evenimente improbabile, pot fi considerate practic imposibile. Aceste. eșantionarea este foarte precisă.

Aceasta este esența regulii trei sigma:

Dacă o variabilă aleatoare este distribuită normal, atunci valoarea absolută a abaterii ei de la așteptările matematice nu depășește de trei ori abaterea standard (MSD).

În practică, regula trei sigma se aplică după cum urmează: dacă distribuția variabilei aleatoare studiată este necunoscută, dar condiția specificată în regula de mai sus este îndeplinită, atunci există motive să presupunem că variabila studiată este distribuită normal. ; altfel nu este distribuit în mod normal.

Nivelul de semnificație este luat în funcție de gradul de risc permis și de sarcina la îndemână. Pentru evaluarea imobilelor se adoptă de obicei un eșantion mai puțin precis, urmând regula două sigma.

Rădăcina pătrată a varianței se numește abatere standard de la medie, care se calculează după cum urmează:

O transformare algebrică elementară a formulei deviației standard o duce la următoarea formă:

Această formulă se dovedește adesea a fi mai convenabilă în practica de calcul.

Abaterea standard, la fel ca abaterea liniară medie, arată cât de mult în medie valorile specifice ale unei caracteristici se abat de la valoarea lor medie. Abaterea standard este întotdeauna mai mare decât abaterea liniară medie. Există următoarea relație între ei:

Cunoscând acest raport, puteți folosi indicatorii cunoscuți pentru a determina necunoscutul, de exemplu, dar (I calculați a și invers. Abaterea standard măsoară dimensiunea absolută a variabilității unei caracteristici și este exprimată în aceleași unități de măsură ca și valorile caracteristicii (ruble, tone, ani etc.). Este o măsură absolută a variației.

Pentru semne alternative, de exemplu prezența sau absența studii superioare, formulele de asigurare, dispersie și abatere standard sunt următoarele:

Să arătăm calculul abaterii standard în funcție de datele unei serii discrete care caracterizează distribuția studenților la una dintre facultățile universitare pe vârstă (Tabelul 6.2).

Tabelul 6.2.

Rezultatele calculelor auxiliare sunt prezentate în coloanele 2-5 din tabel. 6.2.

Vârsta medie a unui student, ani, este determinată de formula mediei aritmetice ponderate (coloana 2):

Abaterile la pătrat ale vârstei individuale a elevului de la medie sunt cuprinse în coloanele 3-4, iar produsele abaterilor la pătrat și frecvențele corespunzătoare sunt cuprinse în coloana 5.

Găsim varianța vârstei, anii elevilor, folosind formula (6.2):

Atunci o = l/3,43 1,85 *oda, i.e. Fiecare valoare specifică a vârstei unui student se abate de la medie cu 1,85 ani.

Coeficientul de variație

În valoarea sa absolută, abaterea standard depinde nu numai de gradul de variație a caracteristicii, ci și de nivelurile absolute ale opțiunilor și de medie. Prin urmare, este imposibil să se compare direct abaterile standard ale seriei de variații cu diferite niveluri medii. Pentru a putea face o astfel de comparație, trebuie să găsiți ponderea abaterii medii (liniară sau pătratică) în media aritmetică, exprimată ca procent, i.e. calcula măsuri relative de variație.

Coeficient liniar de variație calculat prin formula

Coeficientul de variație determinată de următoarea formulă:

În coeficienții de variație se elimină nu numai incomparabilitatea asociată cu diferite unități de măsură ale caracteristicii studiate, ci și incomparabilitatea care apare din cauza diferențelor de valoare a mediilor aritmetice. În plus, indicatorii de variație caracterizează omogenitatea populației. Populația este considerată omogenă dacă coeficientul de variație nu depășește 33%.

Conform tabelului. 6.2 și rezultatele calculelor obținute mai sus, determinăm coeficientul de variație, %, conform formulei (6.3):

Dacă coeficientul de variație depășește 33%, atunci aceasta indică eterogenitatea populației studiate. Valoarea obținută în cazul nostru indică faptul că populația de elevi pe vârstă este omogenă ca compoziție. Astfel, o funcție importantă a generalizării indicatorilor de variație este de a evalua fiabilitatea mediilor. Cu cât mai puțin c1, a2 și V, cu cât setul de fenomene rezultat este mai omogen și cu atât media rezultată este mai fiabilă. Conform „regulii trei sigma” luată în considerare de statistica matematică, în serii normal distribuite sau apropiate acestora, abaterile de la media aritmetică care nu depășesc ±3 se produc în 997 de cazuri din 1000. Astfel, cunoscând X și a, puteți obține o idee generală inițială a seriei de variații. Dacă, de exemplu, salariul mediu al unui angajat într-o companie este de 25.000 de ruble, iar a este egal cu 100 de ruble, atunci cu o probabilitate apropiată de certitudine, putem spune că salariile angajaților companiei fluctuează în intervalul (25.000 de ruble). ± ± 3 x 100) adică de la 24.700 la 25.300 de ruble.

În testarea statistică a ipotezelor, atunci când se măsoară o relație liniară între variabile aleatoare.

Abatere standard:

Abaterea standard(estimarea abaterii standard a variabilei aleatoare Floor, pereții din jurul nostru și tavanul, x raportat la așteptările sale matematice bazate pe o estimare imparțială a varianței sale):

unde este dispersia; - Podeaua, pereții din jurul nostru și tavanul, i al-lea element al selecției; - dimensiunea probei; - media aritmetică a eșantionului:

Trebuie remarcat faptul că ambele estimări sunt părtinitoare. În cazul general, este imposibil să se construiască o estimare imparțială. Cu toate acestea, estimarea bazată pe estimarea variației imparțiale este consecventă.

Regula trei sigma

Regula trei sigma() - aproape toate valorile unei variabile aleatoare distribuite normal se află în interval. Mai strict - cu o încredere de nu mai puțin de 99,7%, valoarea unei variabile aleatoare distribuite normal se află în intervalul specificat (cu condiția ca valoarea să fie adevărată și să nu fie obținută ca urmare a procesării eșantionului).

Dacă valoarea adevărată este necunoscută, atunci ar trebui să folosim nu, ci podeaua, pereții din jurul nostru și tavanul, s. Astfel, regula de trei sigma se transformă în regula de trei. Podeaua, pereții din jurul nostru și tavanul, s .

Interpretarea valorii abaterii standard

O valoare mare a abaterii standard arată o mare răspândire a valorilor în setul prezentat cu valoarea medie a setului; o valoare mică, în consecință, arată că valorile din set sunt grupate în jurul valorii de mijloc.

De exemplu, avem trei seturi de numere: (0, 0, 14, 14), (0, 6, 8, 14) și (6, 6, 8, 8). Toate cele trei seturi au valori medii egale cu 7 și, respectiv, abateri standard egale cu 7, 5 și 1. Ultimul set are o abatere standard mică, deoarece valorile din set sunt grupate în jurul valorii medii; primul set are cel mai mult mare valoare abaterea standard - valorile din cadrul setului diferă foarte mult de valoarea medie.

ÎN în sens general abaterea standard poate fi considerată o măsură a incertitudinii. De exemplu, în fizică, abaterea standard este utilizată pentru a determina eroarea unei serii de măsurători succesive a unei cantități. Această valoare este foarte importantă pentru determinarea plauzibilității fenomenului studiat în comparație cu valoarea prezisă de teorie: dacă valoarea medie a măsurătorilor diferă mult de valorile prezise de teorie (deviație standard mare), atunci valorile obținute sau metoda de obținere a acestora trebuie reverificate.

Aplicație practică

În practică, abaterea standard vă permite să determinați cât de mult pot diferi valorile dintr-un set față de valoarea medie.

Clima

Să presupunem că există două orașe cu aceeași temperatură medie zilnică maximă, dar unul este situat pe coastă, iar celălalt este în interior. Se știe că orașele situate pe coastă au multe temperaturi maxime diurne diferite, care sunt mai scăzute decât orașele situate în interior. Prin urmare, abaterea standard a temperaturilor maxime zilnice pentru un oraș de coastă va fi mai mică decât pentru al doilea oraș, în ciuda faptului că valoarea medie a acestei valori este aceeași, ceea ce înseamnă, în practică, că probabilitatea ca temperatura maximă a aerului pe orice zi a anului va fi mai mare, diferită de valoarea medie, mai mare pentru un oraș situat în interior.

Sport

Să presupunem că există mai multe echipe de fotbal care sunt evaluate în funcție de un set de parametri, de exemplu, numărul de goluri marcate și primite, șanse de gol etc. Cel mai probabil, cea mai bună echipă din această grupă va avea cele mai bune valori. pentru Mai mult parametrii. Cu cât abaterea standard a echipei pentru fiecare dintre parametrii prezentați este mai mică, cu atât rezultatul echipei este mai previzibil; Pe de altă parte, pentru o echipă cu o abatere standard mare, este dificil de prezis rezultatul, care la rândul său se explică prin dezechilibru, de ex. apărare puternică, dar cu un atac slab.

Utilizarea abaterii standard a parametrilor de echipă face posibilă, într-o măsură sau alta, prezicerea rezultatului unui meci între două echipe, evaluând punctele forte și punctele slabe ale echipelor și, prin urmare, metodele de luptă alese.

Analiza tehnica

Vezi de asemenea

Literatură

* Borovikov, V. STATISTICA. Arta analizei datelor pe computer: Pentru profesioniști / V. Borovikov. - Sankt Petersburg. : Peter, 2003. - 688 p. - ISBN 5-272-00078-1.

Așteptări și variații

Să măsurăm o variabilă aleatoare N de ori, de exemplu, măsurăm viteza vântului de zece ori și dorim să găsim valoarea medie. Cum este valoarea medie legată de funcția de distribuție?

Vom arunca zarurile de un număr mare de ori. Numărul de puncte care vor apărea pe zar la fiecare aruncare este o variabilă aleatorie și poate lua orice valoare naturală de la 1 la 6. Media aritmetică a punctelor pierdute calculată pentru toate aruncările de zaruri este, de asemenea, o variabilă aleatorie, dar pentru mari N tinde spre un număr foarte specific – așteptarea matematică Mx. ÎN în acest caz, Mx = 3,5.

Cum ai obținut această valoare? Lasă să intre N teste, odată ce obțineți 1 punct, odată ce obțineți 2 puncte și așa mai departe. Apoi Când N→ ∞ numărul de rezultate în care a fost aruncat un punct, În mod similar, Prin urmare

Modelul 4.5. Zaruri

Să presupunem acum că cunoaștem legea distribuției variabilei aleatoare x, adică știm că variabila aleatoare x poate lua valori x 1 , x 2 , ..., x k cu probabilităţi p 1 , p 2 , ..., p k.

Aşteptare Mx variabilă aleatoare x este egal cu:

Răspuns. 2,8.

Așteptările matematice nu sunt întotdeauna o estimare rezonabilă a unei variabile aleatorii. Deci, pentru a estima media salariile Este mai logic să folosim conceptul de mediană, adică o astfel de valoare încât numărul de persoane care primesc un salariu mai mic decât mediana și unul mai mare să coincidă.

Median o variabilă aleatorie este un număr x 1/2 este astfel încât p (x < x 1/2) = 1/2.

Cu alte cuvinte, probabilitatea p 1 că variabila aleatoare x va fi mai mic x 1/2, și probabilitate p 2 că variabila aleatoare x va fi mai mare x 1/2 sunt identice și egale cu 1/2. Mediana nu este determinată în mod unic pentru toate distribuțiile.

Să revenim la variabila aleatoare x, care poate lua valori x 1 , x 2 , ..., x k cu probabilităţi p 1 , p 2 , ..., p k.

Varianta variabilă aleatoare x Valoarea medie a abaterii pătrate a unei variabile aleatoare de la așteptările ei matematice se numește:

Exemplul 2

În condițiile exemplului anterior, calculați varianța și abaterea standard a variabilei aleatoare x.

Răspuns. 0,16, 0,4.

Modelul 4.6. Trage într-o țintă

Exemplul 3

Aflați distribuția de probabilitate a numărului de puncte obținute la prima aruncare a zarului, mediana, așteptarea matematică, varianța și abaterea standard.

Orice margine este la fel de probabil să cadă, deci distribuția va arăta astfel:

Abaterea standard Se poate observa că abaterea valorii de la valoarea medie este foarte mare.

Proprietățile așteptărilor matematice:

  • Așteptările matematice ale sumei variabilelor aleatoare independente este egală cu suma așteptărilor lor matematice:

Exemplul 4

Aflați așteptările matematice ale sumei și produsului punctelor aruncate pe două zaruri.

În exemplul 3 am găsit că pentru un cub M (x) = 3,5. Deci pentru două cuburi

Proprietăți de dispersie:

  • Varianța sumei variabilelor aleatoare independente este egală cu suma varianțelor:

D x + y = D x + Dy.

Lasă pt N aruncări pe zarurile aruncate y puncte. Apoi

Acest rezultat este valabil nu numai pentru aruncările de zaruri. În multe cazuri, determină acuratețea măsurării empirice a așteptărilor matematice. Se poate observa că odată cu creșterea numărului de măsurători N răspândirea valorilor în jurul mediei, adică abaterea standard, scade proporțional

Varianta unei variabile aleatoare este legată de așteptarea matematică a pătratului acestei variabile aleatoare prin următoarea relație:

Să găsim așteptările matematice ale ambelor părți ale acestei egalități. Prin definiție,

Așteptarea matematică a părții drepte a egalității, conform proprietății așteptărilor matematice, este egală cu

Abaterea standard

Abaterea standard egal cu rădăcina pătrată a varianței:
La determinarea abaterii standard pentru un volum suficient de mare al populației studiate (n > 30), se folosesc următoarele formule:

Pătratul mediu sau abaterea standard este un indicator statistic care evaluează cantitatea de fluctuație a unui eșantion numeric în jurul valorii sale medii. Aproape întotdeauna, majoritatea valorilor sunt distribuite în plus sau minus o abatere standard de la medie.

Definiţie

Abaterea standard este rădăcina pătrată a mediei aritmetice a sumei abaterilor pătrate de la medie. Strict și matematic, dar absolut de neînțeles. Aceasta este o descriere verbală a formulei de calcul a abaterii standard, dar pentru a înțelege semnificația acestui termen statistic, să înțelegem totul în ordine.

Imaginați-vă un poligon de tragere, o țintă și o săgeată. Lunetistul trage la o țintă standard, unde lovirea centrului dă 10 puncte, în funcție de distanța de la centru numărul de puncte scade, iar lovirea zonelor extreme dă doar 1 punct. Lovitura fiecărui trăgător este o valoare întreagă aleatorie între 1 și 10. O țintă plină de gloanțe este o ilustrare perfectă a distribuției unei variabile aleatorii.

Aşteptare

Trăgătorul nostru începător a exersat mult timp tragerea și a observat că lovea sensuri diferite cu o anumită probabilitate. Să spunem, pe baza cantitate mare lovituri, a aflat că lovește 10 cu o probabilitate de 15%. Valorile rămase și-au primit probabilitățile:

  • 9 - 25 %;
  • 8 - 20 %;
  • 7 - 15 %;
  • 6 - 15 %;
  • 5 - 5 %;
  • 4 - 5 %.

Acum se pregătește să mai facă o lovitură. Ce valoare este cel mai probabil să o lovească? Așteptările matematice ne vor ajuta să răspundem la această întrebare. Cunoscând toate aceste probabilități, putem determina rezultatul cel mai probabil al loviturii. Formula de calcul a așteptărilor matematice este destul de simplă. Să notăm valoarea loviturii ca C și probabilitatea ca p. Așteptările matematice vor fi egale cu suma produsului valorilor corespunzătoare și probabilitățile acestora:

Să definim așteptările pentru exemplul nostru:

  • M = 10 × 0,15 + 9 × 0,25 + 8 × 0,2 + 7 × 0,15 + 6 × 0,15 + 5 × 0,05 + 4 × 0,05
  • M = 7,75

Deci, este cel mai probabil ca trăgătorul să lovească zona de 7 puncte. Această zonă va fi cea mai puternică lovită, ceea ce este un rezultat excelent al celor mai frecvente lovituri. Pentru orice variabilă aleatorie, valoarea așteptată înseamnă cea mai comună valoare sau centrul tuturor valorilor.

Dispersia

Dispersia este un alt indicator statistic care ilustrează răspândirea unei valori. Ținta noastră este dens ciuruită de gloanțe, iar dispersia ne permite să exprimăm acest parametru numeric. Dacă așteptările matematice arată centrul fotografiilor, atunci dispersia este răspândirea lor. În esență, dispersia înseamnă așteptarea matematică a abaterilor valorilor de la valoarea așteptată, adică pătratul mediu al abaterilor. Fiecare valoare este pătrată astfel încât abaterile să fie doar pozitive și să nu se anuleze reciproc dacă numere identice cu semne opuse.

D[X] = M − (M[X]) 2

Să calculăm răspândirea fotografiilor pentru cazul nostru:

  • M = 10 2 × 0,15 + 9 2 × 0,25 + 8 2 × 0,2 + 7 2 × 0,15 + 6 2 × 0,15 + 5 2 × 0,05 + 4 2 × 0,05
  • M = 62,85
  • D[X] = M − (M[X]) 2 = 62,85 − (7,75) 2 = 2,78

Deci abaterea noastră este 2,78. Aceasta înseamnă că din zona de pe țintă cu o valoare de 7,75, găurile de glonț sunt întinse cu 2,78 puncte. Cu toate acestea, în forma sa pură, valoarea varianței nu este utilizată - rezultatul este pătratul valorii, în exemplul nostru este un punct pătrat, dar în alte cazuri ar putea fi kilograme pătrate sau dolari pătrați. Dispersia ca valoare pătrată nu este informativă, deci reprezintă un indicator intermediar pentru determinarea abaterii standard - eroul articolului nostru.

Abaterea standard

Pentru a converti variația în puncte semnificative, kilograme sau dolari, folosim abaterea standard, care este rădăcina pătrată a variației. Să o calculăm pentru exemplul nostru:

S = sqrt(D) = sqrt(2,78) = 1,667

Am primit punctele și acum le putem folosi pentru a ne conecta cu așteptările matematice. Cel mai probabil rezultat al loviturii în acest caz ar fi exprimat ca 7,75 plus sau minus 1,667. Acest lucru este suficient pentru a răspunde, dar putem spune și că este aproape sigur că trăgătorul va lovi zona țintă între 6.08 și 9.41.

Deviația standard sau sigma este un indicator informativ care ilustrează răspândirea unei valori în raport cu centrul acesteia. Cu cât sigma este mai mare, cu atât este mai mare răspândirea eșantionului. Acesta este un coeficient bine studiat și regula interesantă a trei sigma este cunoscută pentru distribuția normală. S-a stabilit că 99,7% din valorile unei cantități distribuite normal se află în regiunea de plus sau minus trei sigma din media aritmetică.

Să ne uităm la un exemplu

Volatilitatea perechii valutare

Se știe că metodele statisticii matematice sunt utilizate pe scară largă pe piața valutară. Multe terminale de tranzacționare au instrumente încorporate pentru calcularea volatilității unui activ, ceea ce demonstrează o măsură a volatilității prețului unei perechi valutare. Desigur, piețele financiare au propriile lor specificități pentru calcularea volatilității, cum ar fi prețurile de deschidere și de închidere ale burselor de valori, dar, de exemplu, putem calcula sigma pentru ultimele șapte lumânări zilnice și estimam aproximativ volatilitatea săptămânală.

Perechea valutară liră/yen este considerată pe bună dreptate cel mai volatil activ de pe piața Forex. Să presupunem că, teoretic, în cursul săptămânii, prețul de închidere al Bursei de Valori din Tokyo a luat următoarele valori:

145, 147, 146, 150, 152, 149, 148.

Să introducem aceste date în calculator și să calculăm sigma egală cu 2,23. Aceasta înseamnă că, în medie, yenul japonez s-a schimbat cu 2,23 yeni în fiecare zi. Dacă totul ar fi atât de minunat, comercianții ar câștiga milioane din astfel de mișcări.

Concluzie

Abaterea standard este utilizată în analiza statistică a probelor numerice. Acesta este un coeficient util pentru evaluarea răspândirii datelor, deoarece două seturi cu aceeași valoare medie aparent pot fi complet diferite în răspândirea valorilor. Utilizați calculatorul nostru pentru a găsi mici mostre de sigma.



Publicații pe această temă