Prvo poglavlje
DESKRIPTIVNA STATISTIKA

 
 

 

Vrste podataka

U statistici pod skupom podataka razumijevamo vrijednosti dobivene mjerenjem (ili opažanjem) nekog statističkog obilježja (ili varijable) promatrane (izučavane) skupine objekata ili osoba. Varijabla može biti jednodimenzionalna ili višedimenzionalna.
Grupa objekata ili osoba koju posmatramo, odnosno za koju izučavamo odabrano statističko obilježje, zove se populacija. Često nije moguće popisati (izmjeriti, opaziti) sve vrijednosti izučavanoga statističkog obilježja. U tom slučaju odabiremo (reprezentativni) uzorak iz populacije i iz njega popisujemo vrijednosti statističkog obilježja.
Dakle, razlikujemo skupove podataka dobivene mjerenjem (opažanjem) odabranog statističkog obilježja na populaciji (populacijski podaci), od onih dobivenih na uzorku iz populacije (uzorački podaci).

Frekvencijske distribucije

Skupovi diskretnih numeričkih i kategorijalnih podataka opisuju se svojim frekvencijskim distribucijama. Frekvencijske distribucije prikazuju se tabelarno pomoću frekvencijskih tablica ili grafički pomoću stupčastih ili strukturnih dijagrama.

Frekvencija ili učestalost vrijednosti varijable (odnosno njenog razreda) je broj pojavljivanja te vrijednosti u skupu podataka, a njena relativna frekvencija je omjer frekvencije i ukupnog broja podataka.

Primjer 1.
Navedena frekvencijska tablica predstavlja frekvencijsku distribuciju skupa podataka dobivenih mjerenjem varijable X, koja predstavlja broj djece u obitelji mlađe od 16 godina, na uzorku od 80 obitelji

Na primjer, frekvencija vrijednosti“1” varijable X je 12, a njena relativna frekvencija je 12/80 = 0.15. Ista frekvencijska distribucija grafički je prikazana na slici 1.1 kao stupčasti dijagram frekvencija (tj. visine stubaca predstavljaju iznose frekvencija), na slici 1.2 pomoću stupčastog dijagrama relativnih frekvencija, a na slici 1.3  pomoću strukturnog dijagrama.

Stupčasti dijagrami relativnih frekvencija koristi se za grafičko poređenje frekvencijskih distribucija više skupova podataka istoga tipa, na primjer, dobivenih mjerenjem istog statističkog obilježja na raznim uzorcima. Strukturni dijagrami se koriste za prikaz frekvencijskih distribucija varijabli s (relativno) malo razreda. Za prikaz distribucija nominalnih varijabli s (relativno) mnogo razreda najčešće se koriste položeni stupčasti dijagrami s razredima sortiranima po veličini frekvencije.

Histogrami i frekvencijske distribucije grupiranih vrijednosti

Za razliku od diskretnih numeričkih i kategorijalnih varijabli, vrijednosti se neprekidnih varijabli (u pravilu) ne ponavljaju, pa se skupovi  takvih podataka ne mogu prikazivati pomoću frekvencijske distribucije na način opisan . Za njihov prikaz koristimo frekvencijsku distribuciju grupisanih vrijednosti. Preciznije, vrijednosti varijable grupišemo u konačno mnogo intervala, a zatim odredimo frekvencije (i/ili relativne frekvencije) tih intervala. Intervali-klase su predstavljeni sa međusobno disjunktnim intervalima kojima su obuhvaćane sve vrijednosti varijable (tj. klase čine konačnu particiju područja vrijednosti varijable).
Frekvencijska distribucija grupiranih vrijednosti varijable grafički se prikazuje histogramom.
Histogram je sličan stupčastom dijagramu, ali, za razliku od stupčastog dijagrama, prikazuje se u Kartezijevom koordinatnom sustavu. Sastoji se od onoliko pravougaonika koliko ima intervala, s osnovicama nad intervalima koji reprezentiraju intervale na osi apscisa.
Površina svakog takvog pravougaonika jednaka je relativnoj frekvenciji intervala kojeg predstavlja. Dakle, ukupan zbir površina pravougaonika histograma je jednak jedan.

Primjer 2.
Raspolažemo sa 100 podataka o iznosima šteta zbog popuštanja vodovodnih instalacija po policama osiguranja kućanstava.

243 306 271 396 287 399 466 269 295 330
425 324 228 113 226 176 320 230 404 487
127   74 523 164 366 343 330 436 141 388
293 464 200 392 265 403 372 259 426 262
221 355 324 374 347 261 278 113 135 291
176 342 443 239 302 483 231 292 373 346
293 236 223 371 287 400 314 464 337 308
359 352 273 267 277 184 286 214 351 270
330 238 248 419 330 319 440 427 343 414
291 299 265 318 415 372 238 323 411 494

Minimalna vrijednost opažane varijable je 74, a maksimalna 523. U nedostatku dodatnih informacija o području mogućih vrijednosti te varijable, pretpostavit ćemo da se one kreću u rasponu od 50 do 550 novčanih jedinica. To područje particioniramo u 10 razreda kako je prikazano u frekvencijskoj tablici grupisanih vrijednosti.

Histogram tog skupa podataka nalazi se na slici 1.4. Budući da je širina svakog intervala jednaka 50, a ujedno je to i dužina osnovice pripadnih pravougaonika, primjetite da visine praovugaonika nisu jednake relativnim frekvencijama.

Stem and leaf dijagram

Stem and leaf dijagram je, u stvari, histogram prikazan pomoću nizova brojeva. Formira se na sljedeći način. Na početku svakog retka, odijeljen vertikalnom crtom zdesna, nalazi se broj koji reprezentira razred, tzv. stabljika (engl. stem). Desno od vertikalne crte slijede ga u nizu druge po značaju znamenke brojeva koji pripadaju tom razredu, tzv. lišće. Dakle, svaka znamenka desno od crte je list (engl. leaf ). Dijagram se sastoji od onoliko redaka koliko ima stabljika (razreda).

Primjer 3.
Naveden je stem and leaf dijagram za skup podataka iz primjera 2. Stabljike predstavljaju znamenke stotice, a lišće znamenke desetice svakog od brojeva iz uzorka.

Linijski dijagram i dijagram tačaka

Za prikaz malog skupa numeričkih podataka koriste se linijski i dijagram tačaka.
Linijski dijagram sastoji se od brojnog pravca na kojemu su, na primjer križićem, naznačene vrijednosti iz skupa podataka. U slučaju da se neki podaci više puta ponavljaju, koristi se dijagram tačaka. Taj dijagram se takoder sastoji od brojnog pravca. Podaci se reprezentiraju sa po jednom tačkom koja se ucrtava iznad njihove vrijednosti na brojevnom pravcu. Svaka ponovljena vrijednost naznačava se novom tačkom koja se ucrtava nad prethodnom tačkom. Dakle, dijagram tačaka ima oblik histograma.

Primjer 4. 
Linijski dijagram skupa podataka koji se sastoji od zadnjih 10 brojeva iz primjera 2 (zadnji red):

Primjer 5.  Navedeni dijagram tačaka predstavlja uzorak dobiven nezavisnim mjerenjem vremena izvodenja određene radne operacije (u sekundama).

Mjere lokacije

Mjere srednje vrijednosti mogu biti potpune i pozicione (nepotpune). U potpune mjere srednje vrijednosti ubrajamo arimetičku, geometrijsku i harmoničku sredinu. u pozicione ubrajamo mod, medijanu i kvantile.

Aritmetička sredina (Srednja vrijednost uzorka)

Neka je X numerička varijabla. Aritmetička sredina brojeva (1.1) je broj

Primjer 6. 
Aritmetička sredina podataka iz primjera 1. je:


Medijana

Problem upotrebe srednje vrijednosti je taj da ona ne opisuje tipični rezultat. Ako jedan rezultat jako odstupa od vrijednosti ostalih podataka, onda će srednja vrijednost biti jako utjecana ovim jednim odstupjaućim rezultatom. Ovakav rezultat se naziva i outsajderom. Alternativna metoda je mediana, ili centar pozicije, ili srednji rezultat.


Neka je X numerička ili ordinalna varijabla. Tada je njene vrijednosti (1.1) moguće urediti:

Medijana skupa podataka (1.1) je vrijednost od X za koju vrijedi da je 50% svih podataka u skupu manje od ili jednako toj vrijednosti i 50% svih podataka je veće od nje ili jednako joj.
Kada je broj podataka n u (1.1) (odn. (1.5)) neparan broj, n = 2k −1, medijan m od (1.1) je jednak x(k). U stvari, to je vrijednost koja se nalazi u sredini niza (1.5). Dakle, medijan se može odrediti za neparne skupove ordinalnih podataka. Uz takvu općenitost teško je odrediti medijan parnog skupa podataka. Zato pretpostavimo da su (1.1) numerički podaci. Tada je medijan skupa s parnim brojem podataka n = 2k jednak m = (x(k) +x(k+1))/2, tj. aritmetičkoj sredini dva srednja broja u (1.5).

Primjer 7.
Medijan uzorka iz primjera 1. je:

Mod

Mod ili centar aktivnosti je jedna od najstarijih pozicionih vrijednosti koja se jednostavno utvrđuje.
Mod je vrijednost obilježja X koja su u skupu podataka (1.1) pojavljuje najviše puta, dakle, ima najveću frekvenciju. Mod se može opisati i kao najtipičnija vrijednost posmatrane varijable. Na primjer, osiguravajuće društvo može zanimati najtipičnija vrsta osiguranika po zanimanju. Jasno je da mod općenito ne mora postojati.

Primjer 8.
Mod uzorka iz primjera 1. je 2 jer ta vrijednost ima najveću frekvenciju (28). Dakle, najtipičnija obitelj (u uzorku) ima dvoje djece mlade od 16 godina.

Primjer 9.
Pretpostavimo da smo nasumično odabrali cijene 10 kuća u području South Lake Tahoe. Nas interesuje tipična vrijednost kuće. Cijene su:

270,000; 290,000; 310,000; 340,000; 370,000; 410,000; 430,000; 470,000; 470,000; 4080000

Srednja vrijednost u ovom slučaju je 710,000. Iako je ova vrijednst tačna, ona ipak ne odražava dostupnu cijenu kuće u South Lake Tahoe-u. Vidimo kako jedna cijena jako odstupa od drugih, 4,08 mil.$
Zato koristimo medijanu. Obzirom da je paran broj rezultata, uzimamo prosjek dva rezultata u sredini, tj.:

Medijana niza cijena kuća je 390,000$. Vidimo kako nam ova vrijednost bolje odražava stanje, te šta sam kupac treba očekivati pri kupovini.

Postoji još jedna alternativna vrijednost koja je također otporna na vrijednosti koje odudaraju, ili outsajdere. Ta vrijednost se naziva Reducirana vrijednost, ona predstavlja srednju vrijednost kada joj se odrežu outsajderi, ili 5% gornje granice i  5% donje granice.

Primjer:
Ako imamo vrijednosti: 44, 50, 38, 96, 42, 47, 40, 39, 46, 50.

Vidimo da srednja vrijednost nije vrijednost uzorka.

Da bismo našli medijanu, moramo prvo sortirati podatke:
38, 39, 40, 42, 44, 46, 47, 50, 50, 96
Dvije vrijednosti u sredini ovog niza su 44 i  46.

Mjere raspršenja
Disperzija slučajne veličine, standardna devijacija i  koeficijent disperzije

Uz mjere lokacije, odnosno srednje vrijednosti skupa podataka, važno svojstvo distribucije tih podataka je i kako su podaci raspršeni, često u odnosu na neku srednju vrijednost.

Srednja vrijednost, mod, medijana, te reducirani rezultat nekada nisu dovoljno efektivni pokazatelji o uzorku. Zato uvodimo nove pojmove kao što su: disperzija i  standardna devijacija .

Varijanca -Disperzija slučajne veličine
Matematičko očekivanje ne karakteriše slučajnu veličinu u potpunosti, jer znajući matematičko očekivanje slučajne veličine ne možemo reći kakvu vrijednost uzima slučajna veličina i kolika su joj odstupanja od matematički očekivane vrijednosti. Da bi znali kakvo je rasijanje vrijednosti slučajne veličine oko njenog matematičkog očekivanja, uvodi se druga brojna karakteristika, koja se naziva disperzija.

Disperziju možemo računati:

Momenti

Primjer:
Vlasnika restorana interesuje koliko ljudi u prosjeku troše u restoranu. Ispitao je 10 različitih računa, nasumično odabranih za zabavu od 4 osobe, te je zapisao podatke: 44, 50, 38, 96, 42, 47, 40, 39, 46, 50

Koeficijent varijacije je relativna mjera disperzije i definiše se kao odnos standardne devijacije i aritmetičke sredine. Koeficijent varijacije je neimenovani broj i uobičajeno je da ga izražavamo u procentima. Koristimo ga za poređenje disperzije u slučajevima kada su varijable izražene u različitim jedinicama mjere i kada su aritmetičke sredine varijabli različite. U prethodnom primjeru, varijacioni koeficijent je:

Ovaj podatak nam govori da je standardna devijacija računa u restoranu 34.6% srednje vrijednosti.

Čebišev teorem

Matematičar pod imenom Chebyshev je došao do granice, koja ograničava blizinu podataka srednjoj vrijednosti. Čebiševa teorema omogućava istovremeno tumačenje aritmetičke sredine i standardne devijacije.

Primjer: pretpostavimo da je poznata prosječna mjesečna plata 230€, standardna devijacija 15€ i k=2.

Primjenom Čebiševe teoreme dobijamo:

Prema teoremi Čebiševa najmanje 75% plata ove distribucije se nalaze u intervalu između 200 i 260€.
Primjena ove teoreme omogućava procjenu moguće vrijednosti neke varijable i raspona varijacije u kojem se očekuje određena proporcija podataka. Po pravilu vrijednosti varijable rijetko odstupaju od aritmetičke sredine za više od tri standardne devijacije. Ove teorema se koristi za definisanje karakterističnih intervala u inferencijalnoj statistici.

Srednja vrijednost i  standardna devijacija za grupne podatke

Računanje srednje vrijednosti iz distribucije frekvencije

Obzirom da je računanje srednje vrijednosti i  standardne devijacije zamorno, ovaj posao se   smanjuje korištenjem frekventne distribucije. Recimo da nas interesuje broj braće i sestara u fakultetskoj statistici studenata. Tabela frekventne distribucije je:

Number of Children       1  2  3  4  5  6  7 

Frequency                5  12  8  3  0  0  1

Ukupan broj braće i sestara je:

1(5)+2(12)+3(8)+4(3)+7(1)=72

Proširenje tabele distribucija frekvencija

Težinska vrijednost prosjeka

Nekada umjesto obične srednje vrijednosti, želimo da vrednujemo neki rezultat više nego druge.

Percenetili i box dijagrami

Percentili
Vidjeli smo da je medijana ili srednji rezultat dijeli podatke, tako da polovina leži ispod vrijednosti medijane. Obično nas interesuje procenat podatka koji leži ispod posmatrane vrijednosti. R-tim procentilom nazivamo vrijednost koja r posto podatka leži na ili ispod te vrijednosti.

Primjer:
Pretpostavimo da su rezultati testa bili: 22, 34, 68, 75, 79, 79, 81, 83, 84, 87, 90, 92, 96 i 99.

Ako je tvoj rezultat bio 75, u kojem percentilu spada tvoj rezultat?
Rješenje: bilo je 24 rezultata i 4 koja odgovaraju vrijednosti našem ili su ispod njegove vrijednosti.

naš rezultat spada u 29 percentil.
Postoji nekoliko različitih percentila, na koje moramo obratiti pažnju:

Dijagram pravougaonika (engl. box and whisker) koristi se za grafički prikaz distribucije velikog i malog skupa numeričkih podataka. Iz njega se direktno može očitati medijan, donji i gornji kvartil, interkvartil, raspon, ekstremne vrijednosti i simetrija. Ovaj grafički prikaz omogućava vizuelno pozicioniranje 50% vrijednosti obzervacija unutar box-a i na taj način omogućava analizu disperzije.

Za konstrukcijuBox Plota treba izračunati vrijednosti tri kvartila.
Nacrtamo pravougaonik (box-kutiju) čiju osnovu predstavlja interkvartilno odstupanje. Bočne strane su određene vrijednostima prvog i trećeg kvartila. Pravougaonik je presječen na dva dijela medijanom. Od desne i lijeve strane pravougaonika  povučemo linije do maximalne i minimalne vrijednosti varijable. Box plot nam omogućuje da sagledamo na jednostavan i ilistrativan način osnovne karakteristike serije.
Box dijagrami mogu se predstaviit horizontalno ili vertikalno, donja slika predstavlja horizontalni box dijagram:

 

 

 
 

Drugo poglavlje
VJEROVATNOĆA I RASPODJELE VJEROVATNOĆE

 
 

 

Vjerovatnoća

Teorija vjerovatnoće je matematička disciplina koja izučava zakonitosti masovnih sličnih pojava. One se ispoljavaju pri višestrukom ponavljanju ogleda. Prije svega, uvedimo pojmove koji su nam potrebni za dalje izlaganje.

Ogledom (eksperimentom) nazivamo svako ostvarenje određenih uslova ili radnji pri kojima se posmatra izučavana pojava (npr.bacanje novčića, čin izdvajanja jednog iz skupa proizvoda itd.)
Sve što može biti ishodom ogleda naziva se događajem (slačajem). Tako, naprimjer, pri bacanju novčića, pojava grba ili broja je događaj. Događaj ćemo obilježavati sa velikim slovima E, F...
Prosti događaj je događaj kod kojeg je moguć tačno jedan ishod. (ako se u kutiji nalaze samo crvene loptice tada se događaj: „iz kutije je izvučena crvena loptica“ naziva prostim).
Događaj nazivamo nemogućim ako se u datom ogledu ne može ostvariri. Događaj, „iz kutije je izvučena bijela loptica“, za sve crvene loptice u kutiji je nemoguć.
Slučajan događaj je događaj koji u datom ogledu može da se pojavi ili ne pojavi. Tako je npr. bacanje novčića slučajan događaj.
Za događaje kažemo da su zajednički (uzajamno se ne isključuju) u datom ogledu ako pojava jednog od njih ne isključuje pojavu drugog. Tako npr. pri bacanju dva novčića događaji „broj na gornjoj strani prvog i grb na gornjoj strani drugog“ se ne isključuju.
Dva događaja se nazivaju nezajedničkim (uzajamno isključivim) ako se ne mogu dogoditi istovremeno. Npr. „događaji grba i broja“ pri jednom bacanju novčića.
Kod prikaza događaja Venovim dijagramom, dva događaja se uzajamno isključuju ukoliko se njihove regije ne sijeku niti u jednoj tački.

 
 
slika
 
 

Definicija vjerovatnoće:
Vjerovatnoća događaja je odnos broja elementarnih rezultata povoljnih datom događaju sa brojem svih jednako mogućih rezultata ogleda u kojem se može pojaviti taj događaj.
Vjerovatnoću događaja E označavamo sa Pr(E), pa je prema definiciji možemo izraziti kao:

pri čemu je:
m- broj rezultata povoljnih datom događaju (broj pojavljivanja događaja E)
n- broj svih mogućih elementarnih rezultata ogleda u kome se može pojaviti događaj E

Primjer:
Izračunati vjerovatnoću pojave grba i pojave broja pri jednom bacanju novčića.

Neka je E pojava grba i F pojava broja na strani novčića. Pretpostavimo da su događaji E i F jednako mogući. Za svaki od njih broj povoljnih rezultata je 1, a broj svih elementarnih rezultata je 2, tj. m=1 i n=2, pa je:

Iz definicije vjerovatnoće slijede njene proste osobine:

  1. Vjerovatnoća Pr(E) nekog događaja je uvijek između 0 i 1, tj. ( 0<Pr(E) <1)
  2. Suma svih vjerovatnoća prostih događaja mora biti jednaka jedinici
  3. Suma vjerovatnoća događaja E i njemu suprotnog događaja E jednaka je 1 tj. vrijedi:  Pr(E)+Pr(E)=1
  4. Ako se događaj E i događaj F međusobno isključuju tada vrijedi:

      Pr(E or F)=Pr(E)+Pr(F)

Definišimo razliku između konjukcije i disjunkcije (I i ILI):
Ako su E i F događaji, tada E  I  F predstavlja sve rezultate koji pripadaju I E I F.
Ako su E i F događaji, tada E ILI F predstavlja sve rezultate koji odgovaraju ili E ili F.

Primjer:
Na donjoj slici prikazana su dva skupa, A i B Venovim dijagramom:

Zeleno područje predstavlja A I B, dok sva obojena područja predtavljaju A ILI B.


Definirajmo uslovnu vjerovatnoću:
Neka su E i F događaji. Uslovnom vjerovatnoćom nazivamo slučaj kada je za odigravanje događaja E potrebno da se desio događaj F. Ovu definiciju možemo zapisati na slijedeći način:

Dva događaja zovemo nezavisnim ako vrijedi:

Također, za dva događaja kažemo da su međusobno nezevisna ako vrijedi:

Primjer:
Razmatrajmo dva bacanja kocke. Neka je E slučaj da je bačena 3. Neka je F slučaj da je suma dva bacanja 8.

Tada E I F znači da je u prvom bacanju dobiveno 3, a u drugom bacanju 5.
Vjerovatnoća ovoga slučaja je 1/36 s obzirom da je 36 mogućih parova, a samo jedan od njih je (3,5).
Imamo da je Pr(E)=1/6.
Primjetimo da slučaj F čine kombinacije (2,6),(3,5),(4,4),(5,3),(6,2). Stoga je Pr(F)=5/36.
Tako imamo:
Pr(E)Pr(F)=(1/6)(5/36)
što nije1/36 po čemu zaključujemo da E I F nisu nezavisni.

Formula pune vjerovatnosti i formula Bayes-a

Prethodna jednakost naziva se Bayes-ovom formulom.

Pravilo računanja

Za E I F uvijek vrijedi:

Primjer:
Nađi vjerovatnoću da iz špila karata pri jednom izvlačenju se izvuče ili karta srce ili karta slika.

 
Rješenje:
Neka je E slučaj da je izvučena karta srce.
Neka je F slučaj da je izvučena karta slika.
Tada vrijedi da su vjerovatnoće događaja E i F:
Pr(E)=1/4 i
Pr(F)=3/13 (Žandar, Kraljica ili Kralj od 13 mogućih)
Pr(E I F)=3/52
Iz prethodnog vrijedi da je:
                                                Pr(E ILI F)=1/14+3/13-3/52=22/52=42%

 

Permutacije

 

Primjer:
Zamislimo da se 40 djevojaka natječe za ulogu u najnovijoj predstavi kod koje su sve uloge ženske. Ukupno ima 7 uloga. Pretpostavimo da ste Vi direktor. Koliko izbora imate?

Rješenje:
Način da riješimo ovaj problem jeste da razmatramo prvo odabir jedne djevojke za glavnu ulogu. Za glavnu ulogu imamo izbor od 40 djevojaka. Za prvu sporednu ulogu, nakon što smo odabrali glavnu ulogu, imamo 39 izbora. Za svaku slijedeću ulogu razmatramo preostale žene, kojih je za svaku narednu ulogu za jedan broj manje. Imajući u vidu ovakvo odabiranje i činjenicu da je potrebno ukupno 7 djevojaka s obzirom da je 7 uloga, broj mogućih izbora dobije se kao:

 

Kombinacije

Razmotrimo slijedeći primjer.

Primjer:
Na jednom šahovskom turniru učestvuje 15 učesnika. Svaki treba da odigra partiju sa svakim. Koliko će biti odigrano partija na turniru?

Rješenje:
Od 15 učesnika svaki treba odigrati jednu partiju sa svakim od ostalih učesnika. U svakoj partiji učestvuju po dva učesnika turnira tako da ćemo broj partija moći izračunati po slijedećoj formuli:

 

RASPODJELA VJEROVATNOĆE

Slučajne veličine

Primjer raspodjele vjerovatnoće:
Pretpostavimo da kocku bacamo dva puta. Prikažimo tabelu vjerovatnoća za sumu bačenih vrijednosti. Mogućnosti sume brojeva u dva bacanja su : 2,3,4,5,6,7,8,9,10,11,12.

Prema tome, tabela raspodjele vjerovatnoće je:

Definicija:
Funcijom raspodjele slučajne veličine X naziva se funkcija F definisana sa F(x)=Pr(X<a), gdje je Pr(X<a) vjerovatnoća da slučajna veličina uzima vrijednosti koje su manje od a.
Slučajna veličina X naziva se neprekidnom ako je funkcija raspodjele F(x) neprekidna.

GUSTOĆA RASPODJELE

Funkcija raspodjele F(x) ne daje potpunu predstavu o karakteru raspodjele slučajne veličine. Da bi dobili potpunu predstavu o tome uvodi se druga funkcija koja se naziva gustinom raspodjele.
Ako je funkcija raspodjele F(x) diferencijabilna, tada važi slijedeća definicija:
Gustinom raspodjele neprekidne slučajne veličine u tački a nazivamo graničnu vrijednost odnosa vjerovatnosti nalaženja te veličine u nekom intervalu (a,a+δ) sa dužinom δ segmenta [a,a+δ], kad δ→0.

MATEMATIČKO OČEKIVANJE SLUČAJNE VELIČINE

DISPERZIJA SLUČAJNE VELIČINE

Matematičko očekivanje ne karakteriše slučajnu veličinu u potpunosti, jer znajući matematičko očekivanje slučajne veličine ne možemo reći kakvu vrijednost uzima slučajna veličina i kolika su joj odstupanja od matematičke očekivane vrijednosti. Da bi znali kakvo je rasipanje vrijednosti slučajne veličine oko njenog matematičkog očekivanja, uvodi se druga karakteristika koja se naziva disperzija.

Disperzija slučajne veličine ima sljedeća svojstva:

SREDNJE KVADRATNO ODSTUPANJE

ZAKONI I FORMULE RASPODJELE VJEROVATNOĆE

Formula data sa (**) naziva se Bernulijevom formulom.

Posmatrani ogled u kome događaj A nastupa k puta i ne nastupa (n-k) puta obrazuje potpunu grupu događaja, pa vrijedi:

Uočimo da se članovi prethodne sume podudaraju sa članovima razvoja binoma:

Primjer:
Pretpostavimo da svaki put kada gađemo neku metu imamo 25% šanse da je pogodimo. Ako gađamo 15 puta:

  1. koja je vjerovatnoća da metu pogodimo tačno 5 puta?
  2. Koja je vjerovatnoća da metu pogodimo manje od tri puta?

POASONOVA RASPODJELA

Neka se pod jednakim uslovima izvodi n nezavisnih ogleda. U svakom od njih se može pojaviti događaj A sa vjerovatnoćom p ili događaj Ā sa vjerovatnoćom q (q=1-p). Vjerovatnoća da se pri n ogleda događaj A pojavi k puta i da se ne pojavi (n-k) puta nalazi se Bernulijevom formulom. Međutim, ako posmatramo slučaj da je n dovoljno veliko, a p dovoljno malo, tada pretpostavljamo da je n·p=λ, gdje je λ neki broj.

NORMALNA (GAUSS-OVA) RASPODJELA

Grafik za opšti slučaj:

Grafikon za slučaj da je srednja vrijednost jednaka nuli, a standardna devijacija da je
jednaka jedinici. Ovaj grafikon predstavlja tzv. standardnu normalnu raspodjelu.

Primjer:
Zamislite da ste menadžer u jednoj prodavnici igračaka i želite da odlučite koliko Monopola želite da nabavite u svoju prodavnicu za naredni mjesec. Prosječno se mjesečno proda 22 Monopola sa standardnom devijacijom 6. Pretpostavimo da je raspodjela Normalna.

  • Koja je vjerovatnoća da ćete narednog mjeseca prodati između 10 i 34 Monopola?
  • Kada biste nabavili 45 Monopola, da li ste se osigurali da vam neće ponestati u toku mjeseca

Rješenje:

  • Primjetimo da vrijedi 22-2(6)=10 i 34=22+2(6). Mi zapravo želimo znati kolika nam je vjerovatnoća da vrijedi |X-μ|<2σ. Iz osobine 7.) vidimo da to 95%.
  • Pošto vrijedi da je 22+3(6)=40 manje od 0.03% šanse je da će nam ponestati Monopola. Tako da smo poprilično osigurani.

KONTROLNI GRAFIKON

Često želimo ispitati da li neke stvari sa vremenom počinju odstupati od određenih normi. Ilustrirajmo to na primjeru:
Utvrđeno je da je srednja vrijednost broja greški medicinskog osoblja u bolnici 0.002 po satu sa standardnom devijacijom 0.0003. Medicinski odbor odlučio je ispitati da li je broj sati rada povezan sa greškama. Medicinsko osoblje je posmatrano tokom dana da bi se ustanovilo kada se greške zapravo naviše javljaju. Slijedeća tabela pokazuje rezultate ispitivanja:

Na osnovu podataka u tabeli kreirajmo grafikon. Sistem ćemo nazvati „van kontrole“ ukoliko se desi barem jedan od slijedećih slučajeva:

  • Barem jedna tačka se nalazi izvan intervala 3σ
  • Devet uzastopnih tačaka se nalazi na istoj strani grafikona u odnosu na centralnu liniju koja najčešće predstavlja srednju vrijednost.
  • Najmanje dvije od tri uzastopne tačke leže izvan intervala 2σ sa iste strane u odnosu na centralnu liniju

Za naš primjer vrijedi:
m + s  =  0.002 + 0.0003  =  0.0023          m - s  =  0.002 - 0.0003  =  0.0017        
m + 2s  =  0.002 + 0.0006  =  0.0026        m - 2s  =  0.002 - 0.0006  =  0.0014        
m + 3s  =  0.002 + 0.0009  =  0.0029        m - 3s  =  0.002 - 0.0009  =  0.0011        
Sada nanesimo tačke na naš kontrolni grafikon.   

Primjetimo da dvije od posljednje tri tačke na grafikon leže izvan intervala 2σ što znači da je naš sistem izvan kontrole iz čega zaključujemo da medicinsko osoblje nije efikasno poslije u posljednjim satima rada.

BROJ Z

Ako imamo normalnu raspodjelu ali ne i standardnu, tada pretvaramo vrijednosti koje karakterišu normalnu raspodjelu u vrijednosti odgovarajuće standardnoj normalnoj raspodjeli preko broja z.
Broj z predstavlja količnik između otklona slučajne veličine od njenog matematičkog očekivanja i standardne devijacije.

 

KORIŠTENJE NORMALNE RASPODJELE ZA APROKSIMIRANJE BINOMNE RASPODJELE

Binomnu raspodjelu je lahko izračunati ukoliko nam je potrebno samo nekoliko vrijednosti. Ako je potrebno puno vrijednosti tada njihov proračun može biti jako iscrpljujući.
Posmatrajmo slijedeći primjer:
Pretpostavimo da se kocka baca 1000 puta. Kolika je vjerovatnoća da bacimo 6 manje od 160 puta?

Rješenje:
Užasan način da dođemo do rješenja jeste da računamo vjerovatnoću po binomnoj formuli  P=C1000,r (1/6)r (5/6)1000 - r  za svako r između 0 i 159. Umjesto toga mi ćemo izvršiti aproksimaciju. Graf aproksimirane raspodjele dat je na slici. Kao što i sami vidimo raspodjela je veoma bliska normalnoj.

Pomoću tabele date u jednom od prehodnih primjera očitamo vrijednost vjerovatnoće. Dobili smo da je 28% šansi da u 1000 bacanja kocke, 6 bacimo manje od 160 puta.

TEOREMA CENTRALNE GRANICE

Rezimirajmo terminologiju
Vrlo često je egzaktno određivanje npr. srednje naseljenosti i njene standardne devijacije skoro pa nemoguće ili veoma skupo. Glavna dva zadatka statističara jesu da izvrše aproksimaciju te dvije vrijednosti, apotom da analiziraju koliko je ta aproksimacija tačna. Najjednostavniji način da se to postigne jeste da se koriste tehnike oprobavanja. Istraživači dobijaju uzorke na osnovu ispitivanja cijele populacije i koriste ih za donošenje zaključaka. Na osnovu uzoraka, statističari proračunavaju određene veličine kao što su: veličina uzorka, srednja vrijednost uzorka, te standardna devijacija uzorka. Ovako određene veličine nazivaju se statistikom.

Primjer:
Koliko šolja kahve pijete svaki dan?
Ako ovo pitanje postavimo dvijema različitim grupama od po pet ljudi, vrlo vjerovatno ćemo dobiti dvije različite srednje vrijednosti i dvije različite standardne devijacije. Biranjem različitih uzoraka dobićemo različite statistike.
Raspodjela svih mogućih uzoraka naziva se raspodjela probanja.

Raspodjela probanja za proporcije
Teorema centralne granice za proporcije:
Neka je p vjerovatnoća uspjeha, a q vjerovatnoća neuspjeha. Raspodjela uzoraka (raspodjela probanja) za n broj uzoraka je aproksimativno normalna sa vrijednostima:

 

 

 

Treće poglavlje
PROCJENA

 

Procjene tačke

Proporcije uzorka

Primjer: recimo da nas interesuje proporcija amerikanaca koji se nalaze ispod granica siromaštva. Umjesto pokušaja da pronađu sve amerikance koji se zaista nalaze an rubu siromaštva, kongres je predložio statističko ‘sempliranje’. Na taj način se možemo koncentrisati 10,000 nasumično odabranih ljudi sa 1000 lokacija. Možemo utvrditii proporciju ljudi ispod granica siromaštva u svakoj pojedinačnoj regiji.  Recimo da ta proporcija ili omjer iznosi 0.08, onda je srednja vrijednost za distribuciju uzorka

Procjena tačke

Intervali pouzdanosti za srednje vrijednosti (za velike i male uzorke)

Tačkasto procjenjivanje

Obično nam nije poznata srednja vrijednosti populacije i standardna devijacija. Naš cilj je procijeniti ove brojeve. Standardni način da bismo ovo postigli je da koristimo srednju vrijednost uzorka i standardnu devijaciju kao najbolji pogodak stvarne srednje vrijednosti populacije i standardne devijacije. Ovo nazivamo najboljim pogotkom tačke procjene.

Intervali pouzdanosti

Nije nam samo od interesa da nađemo tačku procjene za srednju vrijednost, već i da utvrdimo koliko je precizna tačka procjene. Centralni granični teorem ovdje igra ključnu ulogu. Pretpostavljamo da standardna devijacija uzorka je bliska standardnoj devijaciji uzorka (što je uglavnom istinito za velike uzorke). Onda nam iz centralnog graničnog teorema slijedi da je standardna devijacija distribucije uzorka : 

od interesa nam je naći interval oko x, takav da je velika vjerovatnoća da stvarna srednja vrijednost leži unutar ovog intervala. Ovaj interval se naziva i interval pouzdanosti, a velika vjerobatnoća se naziva nivo pouzdanosti.

Primjer:
Recimo da proučavamo nivo bistrine na 50 mjesta u jezeru, i otkrijemo da je prosječna dubina bistrine jezera 14 stopa, sa standardnom devijacijom od 2 stope. Šta možemo zaključiti o srednjoj bistrini jezera sa nivoom pouzdanosti od 95%?

Primjer:
Pretpostavimo da izvodimo istraživanje 19 milionera da bismo saznali koji procenat njihovog dohotka prosječni milioner daruje u dobrotvorne svrhe. Otkrijemo da je srednji procenat 15 sa standardnom devijacijom od 5 posto. Nađite interval pouzdanosti 95% za srednji procenat.

 

Intervali pouzdanosti za proporcije i  izbor veličine uzorka

Interval pouzdanosti velikog uzorka za omjere populacije

Prisjetimo se da je interval pouzdanosti za srednju vrijednost populacije dat sa:

Primjer:
Hiljadu nasumično izabranih amerikanaca je pitano da li bi se minimalac trebao podići, 600 od njih je reklo-da! Konstruišite 95% -tni interval pouzdanosti za omjer amerikanaca koji vjeruju da bi se minimalac trebao podići.

Odakle zaključujemo da između 57 i 63 posto svih amerikanaca se slaže sa prijedlogom. Drugim riječima, sa marginom greške od 0.03m, 60% se slaže.

 

Računanje n za procjenu srednje vrijednosti

Odakle vidimo da bi se istraživanje trebalo provesti na najmanje 52 osobe.

 

Pronalaženje n za procjenu omjera

Primjer:
Pretpostavimo da ste u mogućnosti da provjerite da li će ispuštanje kompjutera ga oštetiti.  Želite pronaći omjer kompjutera koji će se oštetiti. Ako želite 90%-tni interval pouzdanosti za ovaj omjer, sa marginom greške od 4%. Koliko kompjutera morate ispustiti?

Rješenje:
Formula kaže:

Dobili smo formulu preko koje ćemo naći n. Kako ne znamo p, koristimo 0.5 (konzervativna procjena)

Znači, moraćemo ispustit najmanje 426 kompjutera. Ovo bi moglo biti skupo!

 

Intervali pouzdanosti za različitost između dvije srednje vrijednosti populacije ili proporcija

Procjena različitosti

Razlika između srednjih vrijednosti

Ispitali smo 50 ljudi iz siromašniog dijela grada i 70 ljudi iz bogatog dijela o njihovim stavovima prema manjinama. Prebrojali smo broj negativnih komentara. Cilj nam je bio usporediti njihove stavove. Prosječan broj  negativnih komentara u siromašnom dijelu bio je 14, a u bogatom 12. Standardna devijacija je 5 i 4, respektivno. Utvrdimo 95%-tnu pouzdanost za razliku u srednjoj vrijednosti negativnih komentara.  Prvo moramo navesti neke formule.

Možemo zaključiti da je razlika srednjih vrijednosti između brojeva rasnih uvreda koje naprave bogati i siromašni ljudi je između 0.3 i 3.7.

Mali uzorci

Kada je bilo koji uzorak mali, možemo i dalje statistički ga obrađivati približno normalnom raspodjelom.  Ako još dodatno znamo da su dvije standardne devijacije približno jednake, onda možemo udružiti podatke u cilju združene standardne devijacije. Imamo slijedeći teorem:

Primjer:
Koja je razlika između režima prevoza za studente i profesore? 11 studenata i 14 profesora je uzelo učešće u studiji za pronalazak srednje vrijednosti razdaljine dnevne migracije.  Srednji broj milja proputovanih za studente je 5.6, standardna devijacija 2.8.  Srednji broj milja proputovanih u slučaju profesora je 14.3, a standardna devijacija u ovome slučaju je 9.1
Treba konstruisati 95%-tni interval pouzdanosti za razliku između srednjih vrijednosti. Koje smo pretpostavke napravili?

Razlika u prosjeku milja proputovanih u slučaju studenata i profesora je između 2.8 i 14.6. Pretpostavili smo da su standardne devijacije približno jednake i da su  dvije raspodjele približno normalne.

Razlika između omjera

Dosada smo diskutovali razliku između dvije srednje vrijednosti (malih i velikih uzoraka). Naš slijedeći zadatak je procijeniti razliku između dva omjera (proporcije). Imamo slijedeži teorem:

 

 

 

Četvrto poglavlje
TESTIRANJE HIPOTEZA

 

Testiranje hipoteza za proporcije i mali broj uzoraka
Kada vršimo statističke proračune sa malim uzorkom, koristimo isti metod kao i kod proračuna sa velikim uzorkom, ali tada umjesto z-statistike koristimo t-statistiku. Stoga moramo naći stepen slobode (n-1) i koristimo t-tabelu koju imamo u prilogu.

Primjer:
Da li je temperatura koja će oštetiti kompjuter u prosjeku manja od 110 stepeni? Testirano je 20 kompjutera da bi se ustanovilo koja je to najmanja temperatura koja će oštetiti kompjuter. Nakon ispitivanja, prosječna temperatura oštećenja bila je 109 stepeni sa standardnom devijacijom od 3 stepena. Koristimo α=0.05.

Testiranje hipoteza za proporcije

Testiranje hipoteza za uparene razlike

Primjer:
Da li je uspješnost određena genetikom?
Najbolji uvid u ovaj problem imati ćemo ukoliko izvršimo ispitivanje na identičnim blizancima koji su odgajani u dvijema razlučitim okolinama, pri čemu je jedan imo mnogo bolje uslove i mnogo više brige nego drugi. Razlike svakog para blizanaca su posmatarane u njihovim napredovanjima i razvoju tokom srednješkolskog obrazovanja. Naše hipoteze su:

Razlike parova: Intervali pouzdanosti
Da nađemo interval pouzdanosti za razlike među srednjim vrijednostima koristimo formulu:

Primjer:
Pretpostavimo da je 10 parova identičnih blizanaca odgajano odvojeno i da je nakon provođenja ispitivanja njihovog napretka u srednješkolskom obrazovanju ustanovljena srednja razlika 0.07 između onih koji su odgajani u bogatoj sredini i onih odgajanih u siromaštvu. Ako je standardna devijacija od razlike 0.5,  nađi interval pouzdanosti sa 95% vjerovatnoće da će postojati razlike.

Rješenje:

Znači, 95% smo sigurni da je srednja razlika u intervalu pouzdanosti   [-0.29, 0.43]. Primjetimo da 0 pripada ovome intervalu, tako da ne možemo odbiti nultu hipotezu.

REZIME KORAKA ZA TESTIRANJE HIPOTEZA

Regije odbijanja

p-vrijednosti

z-tabela ili t-tabela

  • Z-tabelu koristimo u slučaju da je poznata vrijednost standardne devijacije i ako je orginalna raspodjela normalna (u realnosti to je skoro nemoguć slučaj)
  • U redu je koristiti z-tabelu u slučaju da raspolažete sam velikim uzorkom (većim od 30 ako vam treba tačnost od jedne decimale, a većim od 100 ako vam je potrebna tačnost od dvije decimale).
  • Ako je nepoznata vrijednost standardne devijacije, morate koristiti t-tabelu za male uzorka, a i za velike uzorke ovaj način je pogodniji zbog veće tačnosti rezultata.

Razlike između srednjih vrijednosti

Ilustrirajmo slijedeći pimjer:
Da li uposlenici imaju veću efektivnost na poslu, ako je tokom njihovog rada uključena neka opuštajuća muzika. Uposlenici su posmatrani i došlo se do slijedećih rezultata: Naime, tokom cijelog radnog dana 45 uposlenika u jednoj firmi radilo je uz muziku i ustanovljeno je da je njihov prosječni nivo produktivnosti bio 5.2 sa standardnom devijacijom od 2.4. Drugoga dana muzika je bila ugašena, a posmatrano je 40 uposlenika. Njihov prosječni nivo produktivnosti iznosio je 4.8 sa standardnom devijacijom od 1.2. Šta možemo zaključiti ako nivo značaja iznosi 0.05?

Rješenje:
Posmatrajmo hipoteze:

Kritična vrijednost broja z, pročitana iz tabele, za ovaj slučaj iznosi 1.645 tako da vrijednost 0.988 ne pada u kritični region što vidimo sa slike. Zbog toga ne možemo odbiti nultu hipotezu i zaključujemo da nemamo dovoljno dokaza da smatramo da uposlenici bolje obavljaju svoj posao uz muziku.

Testiranje hipoteza za razlike među srednjim vrijednostima u slučaju malih uzoraka

Sjetimo se da u sličaju malih uzoraka moramo pretpostaviti slijedeće:

  • Uzorci su slučajni
  • Obje raspodjele su normalne
  • Standardne devijacije su jednake

Primjer:
Devet pasa i deset mačaka je testirano da bi se odredila razlika između prosječnog broja dana koje ove dvije vrste životinja mogu preživjeti bez hrane. Ustanovljeno je da prosječan broj dana koje psi mogu izdržati bez hrane iznosi 11 sa standardnom devijacijom od 2 dana, dok za mačke je to 12 dana sa standardnom devijacijom od 3 dana. Šta možemo zaključiti? (koristiti α=0.05)

Rješenje:
Hipoteze su

Kritična t-vrijednost koja odgovara stepenu slobode 17 i α=0.05 jednaka je 2.11, a to je vrijednost veća od dobijene vrijednosti 0.84, što znači da 0.84 nije u kritičnom regionu. Iz toga slijedi zaključak da nemamo dovoljno dokaza da odbijemo nultu hipotezu, tj. nemamo dovoljno pokazatelja da možemo razlikovati da postoji razlika između broja dana koje psi i mačke mogu preživjeti bez hrane.

Testiranje hipoteza za razlike među proporcijama

Ako se dva uzorka razmatraju neovisno jedan od drugoga tada koristimo statistički test:

Primjer:
Da li je problem droge u srednjim školama jednako zahvatio i mladiće i djevojake? Vršeno je ispitivanje i ustanovljeno je slijedeće: od 85 ispitanih mladića 35 je priznalo da je uzimalo drogu, a od 70 ispitanih djevojaka 14 je je priznalo da je uzimalo drogu. Šta možemo zaključiti sa nivoom znčaja od α=0.05?

Rješenje:
Hipoteze su:

Kritična vrijednost za z je 1.96. Pošto se 2.68 nalazi u kritičnom regionu, odbacujemo nultu hipotezu, te možemo zaključiti da ima spol „igra ulogu“ kada se radi o problemima sa drogom.

 

 

 

Peto poglavlje
REGRESIJA I NEPARAMETARSKO TESTIRANJE

 

 

Regresiona analiza je metod kojim se ispituje i utvrđuje zavisnost između dvije ili više promjenljivih, tj. sagledava uticaj promjene jedne ili više promjenljivih na promjenu drugih promjenljivih. Pri tome su x1, x2, ..., xk nezavisne promenljive koje utiču i uslovljavaju veličinu zavisno promenljive y. Nezavisno promenljive se u teoriji eksperimenta nazivaju faktori, a zavisno promenljiva rezultat eksperimenta.

Naziv regresija (povlačenje, vraćanje unazad) nastao je slučajno i nema nikakve veze sa metodom. Potiče iz proučavanja nasljeđa (uticaj visine očeva na visinu sinova) koju je izvodio engleski antropolog F. Galton krajem XIX vijeka. Pokazalo se da između njih postoji zavisnost, odnosno tendencija, da sin bude iste visine kao i otac, ali da su sinovi ipak manji od očeva. Od tada je metod ispitivanja zavisnosti između pojava, odnosno povlačenje od osnovnog zaključka, u matematičkoj statistici dobio naziv regresiona analiza.

U matematici postoje dva oblika zavisnosti :
• funkcionalna zavisnost izražena pomoću matematičkih jednačina tako da svakoj kombinaciji vrednosti nezavisno promenljivih x1, x2, ..., xk tačno odgovara vrijednost za y i
• stohastička ili statistička zavisnost koja se na osnovu eksperimentalnih podataka može izraziti pomoću očekivane zavisnosti ili regresione jednačine (aproksimativne krive), tako da svakoj mjerenoj kombinaciji vrijednosti nezavisno promenljivih x1, x2, ..., xk odgovara računska vrednost za y ) i greška eksperimenta (regresije) ε=y- y ) , od čije veličine zavisi preciznost predviđanja regresione jednačine.
To znači da se kao rezultat regresione analize dobija regresiona zavisnost, koja se često naziva matematički model objekta istraživanja y  =f(x1, x2, ..., xk) i standardna greška regresije ε.

U svakoj naučnoj disciplini osnovni problem je utvrđivanje veza između promjenljivih veličina. Te veze mogu biti potpuno određene. Na primjer, u fizici se može utvrditi tačna funkcionalna zavisnost između udaljenosti objekata od zemlje i gravitacione sile, ili između gasa u zatvorenoj posudi i temperature.
Međutim, u biološkim i društvenim naukama moramo se suočiti sa mnogo komplikovanijom situacijom. Ovdje imamo daleko manje razloga da očekujemo otkrivanje tačno određene veze izmđu promjenljivih veličina. Zato su se, u ovim naučnim disciplinama, morala koristiti statistička izučavanja koja mjere prosječne promjene jedne veličine izazvane promjenama druge veličine. Regresiona analiza upravo ima za cilj da utvrđuje i mjeri veze takvog tipa

Regresiona analiza predstavlja bilo koji statistički metod gdje srednja vrijednost jedne ili više nasumičnih varijabli je procjenjena na osnovu neke druge izmjerene nasumične varijable.
Predstavlja odnos između odabranih vrijednosti jedne varijable (varijableX) i s njima povezanih vrijednosti druge varijable (varijableY)

Vrijednosti mjerenja predstavljene su kao parovi rezultata koji se sastoje od podatka za nezavisnu varijablu (obično varijablu X) i od podatka za zavisnu varijablu (obično varijablu Y).
Parovi rezultata prikzani su kao tačke u koordinatnom sustavu koji na osi X ima vrijednosti za varijablu X, a na osi Y vrijednosti za varijablu Y.

Postoje dva tipa regresione analize, ovisno od toga da li podaci se mogu aproximirati pravcem (linearna) ili ne mogu (nelinearna).

Dijagrami rasipanja/ raspršenja i regresione linije

Dijagram raspršenja (rasipanja) predstavlja grafički prikaz zavisnosti i međuzavisnosti između promenljivih, za koje se ne može utvrditi funkcionalna zavisnost, niti se može precizno iskazati određenje koji od datih skupova podataka predstavlja nezavisnu, a koji zavisnu promjenljivu.
Dijagram ili grafik rasipanja se, za jednofaktorni eksperiment (zavisnost promjenljivih x i y), konstruiše na osnovu dobijenog eksperimentalnog skupa podataka, odnosno izmjerenih vrednosti parova x i y, u pravouglom koordinatnom sistemu sa specijalno odabranim skalama mjerenja na apscisnoj i ordinatnoj osi. Na apscisnoj osi nanose se vrijednosti nezavisno promjenljive x, a na ordinatnoj osi vrijednosti zavisno promjenljive y, tj. vrijednosti jedne varijable prikazane su na x osi, a druge na y osi dijagrama. Tako konstruisan grafik naziva se grafik funkcija eksperimentalnih podataka, odnosno dijagram raspršenja, tzv. scatter dijagram.
           
Dijagram raspršenja, na očigledan način, omogućava
slikovitu predstavu o tome da li postoji ili ne postoji zavisnost i međuzavisnost između promjenljivih x i y kao i njen tok (ponašanje) funkcije, tj. pokazuje kako se funkcija mijenja kada njen argument uzima sve vrijednosti iz oblasti definisanosti. Tako ,naprimjer,  na osnovu nacrtanih eksperimentalnih tačaka može se vizuelno uočiti oblik aproksimativne linije: prava, kriva, monotono rastuća, opadajuća ili periodična linija, tačke maksimuma i/ili minimuma ili prevojne tačke. Prevojne tačke eksperimentalne krive na dijagramu
rasipanja mogu značiti granicu između dva različita mehanizma iste pojave ili granicu poremećaja u mijerenju. Dijagram rasipanja, također, na očigledan način otkriva ekstremne vrijednosti, pa je najpogodnija metoda analize pri određivanju optimuma. Na dijagramu rasipanja se, isto tako, mogu lako uočiti grube greške, a često i sistematske i slučajne greške ravnomjernim rasipanjem eksperimentalnih podataka oko aproksimativne krive.
Dijagram rasipanja se koristi da bi se ilustrovalo kako izlazne karakteristike objekta istraživanja variraju zbog nekog određenog faktora (promjenljive).
Na slici 1 prikazani su različiti dijagrami zavisnosti i međuzavisnost između dvije promenljive x i y.
Na osnovu izgleda oblika eksperimentalnih tačaka u dijagramu rasipanja (slika 1) može se utvrditi karakter i intenzitet istraživane zavisnosti i međuzavisnosti.
Zavisnost i međuzavisnost, na osnovu dijagrama rasipanja, može biti:
linearna zavisnost eksperimentalnih tačaka, koja predstavlja pravolinijski oblik dijagrama rasipanja . Slika 1-a i 1-b.
nelinearna zavisnost eksperimentalnih tačaka, koja predstavlja krivolinijski oblik dijagrama rasipanja. Slika 1-c.

Zavisnost i međuzavisnost, zavisno od oblika dijagrama rasipanja, može biti:
rastuća ili pozitivna zavisnost eksperimentalnih tačaka, koja na dijagramu rasipanja označava upravo proporcionalnu vezu između promenljivih, odnosno sa porastom nezavisno promenljive x zavisno promenljiva y, takođe, raste
(slučaj kada je koeficijent korelacije pozitivan, veći od nule: 0<r<+1) . Slika 1-a.
opadajuća ili negativna zavisnost eksperimentalnih tačaka, koja na dijagramu rasipanja pokazuje da je veza između promenljivih obrnuto proporcionalna, odn. opadanjem nezavisno promenljive x dovodi do opadanja i zavisno promenljive y (slučaj kada je koeficijent korelacije negativan, manji od nule: 0>r>-1) . Slika 1-b.

Slika 1- (različiti oblici dijagrama rasipanja zavisnosti između dvije promjenjive)

Intenzitet veze, koja se ocjenjuje na osnovu položaja eksperimentalnih tačaka u dijagramu rasipanja, može biti:

jaka međuzavisnost, koja pokazuje da su eksperimentalne tačke na dijagramu rasipanja vrlo bliske nekoj funkcionalnoj zavisnosti, odnosno teorijskoj aproksimativnoj krivoj (slika 1-a, slika 1-b i slika 1-c), (ako se sve eksperimentalne tačke na dijagramu rasipanja nalaze na aproksimativnoj krivoj tada se kaže da postoji potpuna međuzavisnost, što je jedna teorijska mogućnost, slučaj kada je i koeficijent korelacije jednak jedinici: r=1)
slaba međuzavisnost, koja pokazuje da su eksperimentalne tačke na dijagramu rasipanja nisu bliske nijednoj teorijskoj aproksimativnoj krivoj (slika 1-d), (ako eksperimentalne tačke na dijagramu rasipanja označavaju nezavisnost jedne promenljive od druge tada se kaže da postoji potpuno odsustvo međuzavisnosti, slučaj kada je i koeficijent korelacije jednak nuli: r=0).

Gornji dijagram rasipanja predstavlja vezu između starosti i veličine biljke. Jasno je sa dijagrama rasipanja da kako biljka stari ima tendenciju da raste. Ako je slučaj da tačke slijede neki linearni model, onda kažemo da je visoka linearna korelacija, u suprotnom, ako tačke ne slijede neki linearni obrazac, kažemo da nema linearne korelacije. Ako podaci do nekog nivoa slijede linearnu putanju, kažemo da je umjerena linearna korelacija.

Primjer 1:
Kao primjer zavisnosti između viskoziteta η i vremena t, pri sintezi dugouljne alkidne smole EPOAL 3065, na slici 2 prikazan je dijagram rasipanja η=f(t).
Zavisnost η=f(t) može se aproksimirati eksponencijalnom regresijom oblika (slika 2):   

       

Dijagram rasipanja se koristi da bi se ilustrovalo kako izlazne promjenljive karakteristika kvaliteta (objekta istraživanja) variraju zbog nekog određenog faktora (promenljive). Eksperimentalni podaci zavisnosti između viskoziteta η i vremena t, pri sintezi alkidnih smola, mogu se aproksimirati eksponencijalnom regresijom.

Linearna regresiona prava

Ukoliko pretpostavimo linearnu vezu između posmatrnih varijabli problem koji se postavlja u ovom slučaju je slijedeći: kako izabrati kriterij konstrukcije i zatim konstruisati najbolju pravu prema tom kriteriju konstrukcije. Tražimo pravu koja najbolje odgovara tim podacima,čija je jednačina.

Gdje su a i b nepoznati parametri koje treba ocijeniti, konstantni član a predstavlja vrijednost regresijske funkcije kada je nezavisna varijabla  jednaka nuli. Regresijski koeficijent b pokazuje koliko se linearno mijenja vrijednost zavisne varijable ako se nezavisna varijabla  promijeni (poveća ili smanji) za jedinicu mjere.

a i b ćemo pronaći na slijedeći način:

Primjer 2:
Pretpostavimo da je studija napravljena da bi se utvrdilo gubitak težine, nakon uzimanja raznih pilula za dijetu, u kombinaciji sa vježbanjem. Ako je prava regresije: y=3+2x, gdje x označava grame pilula na dan, a y predstavlja gubitak težine, onda možemo reći da samo sa vježbanjem i bez uzimanja pilula gubitak na težini dnevno će biti 3 kilograma. Ako osoba uzme još i gram pilula, izgubiće na težini dodatna dva kilograma.
Ako na primjer osoba uzme 5  grama pilula, može se očekivati da će izgubiti 13 kilograma.

Podaci su prikupljeni da bi se usporedilo dužina vremenea x(u mjesecima) koje su parovi proveli u vezi, sa količinom novca y, koji su potrošili kada bi izlazili vani. Jednačina regresionog pravca je: y=70-5x

Y-odsječak nam kaže da je na početku veze prosječni sastanak koštao 70$. A vidimo da svakim dodatnim mjesecom sastank je koštao 5$ više nego prethodni. Možemo koristiti regresionu pravu da bismo predvidjeli količinu novca poslije, recimo 6 mjeseci trajanja veze. Imamo:

Primjer 4:
Uzorak se sastoji od 10 podataka o iznosima zahtjeva za naknadu šteta i korespodentnih iznosa koje je osiguravajuće društvo stvarno platilo (u jedinicama od po 100 km).

Očito se radi o linearnoj povezanosti između opaženih vrijednosti varijabli X = “zahtjev” (za isplatom šteta) i Y = “isplata” (od strane društva).
U analizi linearne zavisnosti dvije varijablie, sljedeće se statistike koriste:

DEFINICIJA KORELACIJE

Korelacija (lat. con = sa, relatio = odnos) predstavlja suodnos ili međusobnu povezanost između različitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znači da je vrijednost jedne varijable moguće sa određenom vjerojatnošću predvidjeti na osnovu saznanja o vrijednosti druge varijable.
Promjena vrijednosti jedne varijable utječe na promjenu vrijednosti druge varijable. Varijabla koja svojom vrijednošću utječe na drugu varijablu naziva se neovisna varijabla. Varijabla na koju se utječe naziva se ovisna varijabla.
Mogući su slučajevi da dvije varijable istovremeno utječu jedna na drugu, pa su u tom slučaju obje varijable istovremeno i ovisne i neovisne.

Odnos između varijabli

Tačke presjeka kreću se oko određenog pravca koji se naziva linija regresije. Što su tačke bliže pravcu, korelacija je veća. Što su tačke raspršenije korelacija je manja. U praksi je vizualno vrlo teško, osim u slučaju »savršene« korelacije odrediti stupanj povezanosti između varijabli. Ovisno o međusobnom odnosu dvaju varijabli među kojima postoji korelacija, ona može biti linearna ili nelinearna. Kod linearne korelacije, točke su grupirane oko pravca. Kod nelinearne korelacije, točke su grupirane oko neke druge krivulje.

Dvije varijable koje promatramo sa ciljem utvrđivanja njihove korelacijske povezanosti mogu biti u 4 različita odnosa:

   1. kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i kada velika vrijednost jedne varijable  
       odgovara velikoj vrijednosti druge varijable, radi se o pozitivnoj korelaciji.
   2. kada mala vrijednost jedne varijable odgovara velikoj vrijednosti druge varijable i obratno, radi se o negativnoj korelaciji.
   3. kada vrijednost jedne varijable u nekim intervalima odgovara maloj vrijednosti druge varijable, a u drugim intervalima velikoj  
       vrijednosti, radi se o nemonotonoj korelaciji. Ako se korelacija više nego jednom mijenja od pozitivne prema negativnoj, takva    
       korelacija naziva se ciklička korelacija.
   4. kada se na osnovu vrijednosti jedne varijable ne može zaključiti ništa o vrijednosti druge varijable, tada korelacija ne postoji.   
       Točke u takvom grafu su raspršene.

Koeficijenti korelacije

Koeficijenti korelacije izražavaju mjeru povezanosti između dvije varijable u jedinicama neovisnima o konkretnim jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim slučajevima. U praksi se prilikom rada s linearnim modelima najčešće koristi Pearsonov koeficijent korelacije (produkt moment koeficijent korelacije). Prilikom rada s modelima koji nisu linearni najčešće se koristi Spearmanov koeficijent korelacije (produkt rang koeficijent korelacije).

Pearsonov koeficijent korelacije (engl., Pearson correlation coefficient)

Možemo reći da postoji lineara povezanostizmeđu x i y ako je nacrtan pravac kroz tačke koji omogućava najprikladniju procjenu opaženog odnosa. Mi mjerimo koliko su naša opažanja blizu pravcu koji najbolje opisuju njihovu linearnu povezanost računanjem Pearsonovog koeficijenta korelacije umnožaka (engl. Pearson product moment correlation coefficient), najčešće jednostavno zvan koeficijent korelacije (engl. Correlation coefficient). Njegova tačna vrijednost u populaciji, ρ, procijenjuje se u uzorku s r.

Pearsonov ili uzorački koeficijent korelacije koristi se u slučajevima kada između varijabli posmatranog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija). Predznak koeficijenta nas upućuje na smjer korelacije – da li je pozitivna ili negativna, ali nas ne upućuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi stvarnog utjecaja posmatranih varijabli jedne na drugu u odnosu na maksimalni mogući utjecaj dviju varijabli. Označava se malim slovom r. Za izračunavanje koeficijenta korelacije potrebna su tri različite sume kvadrata (SS): suma kvadrata varijable X, suma kvadrata varijable Y i suma umnoška varijabli X i Y.

Suma kvadrata varijable X jednaka je sumi kvadrata odstupanja vrijednosti varijable X od njezine prosječne vrijednosti:

Prosječna vrijednost varijable X jednaka je:

Suma kvadrata varijable Y jednaka je sumi kvadrata odstupanja vrijednosti varijable Y od njezine prosječne vrijednosti:

Prosječna vrijednost varijable Y jednaka je:

Suma umnožaka varijabli X i Y jednaka je sumi umnožaka odstupanja vrijednosti varijabli X i Y od njihovih prosjeka:

Koeficijent korelacije jednak je omjeru:

Pogrešno je računati Pearsonov koeficijent korelacije, r:

  • kada postoji ne-linearna povezanost dvije varijable, kao npr. kvadratna povezanost (quadratic relationship)
  • kada podaci uključuju više od jednog opažanja za svakog ispitanika, - kada postoji jedan ili više „nepodobnih članova grupe“ (engl. outliers) - kada se podaci sastoje od subgrupa pojedinaca za koje je prosječna vrijednost opažanja za barem jednu od varijabli različita.

Testiranje hipoteza za Pearsonov koeficijent korelacije

Želimo saznati da li postoji ikakva linearna povezanost (korelacija) između dvije numeričke varijable. Naš uzorak se sastoji od n nezavisnih parova vrijednosti x i y. Pretpostavljamo da barem jedna od dvije varijable slijedi normalnu distribuciju.

Spearmanov koeficijent korelacije 

Spearmanov koeficijent korelacije (produkt rang korelacije) koristi se za mjerenje povezanosti između varijabli u slučajevima kada nije moguće primjeniti Pearsonov koeficijent korelacije. Bazira se na tome da se izmjeri dosljednost povezanosti između poredanih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduslov za korištenje Pearsonovog koeficijenta) nije bitan. Slučajevi u kojima se koristi Spearmanov koficijent su npr. kada među varijablama ne postoji linearna povezanost, a nije moguće primjeniti odgovarajuću transformaciju kojom bi se povezanost prevela u linearnu.

Koeficijent determinacije

Matrica korelacije

Ponekad nam u istraživanju nije dovoljna informacija o korelaciji dvije promatrane varijable, već nas zanima na koji način više varijabli međusobno utiče jedna na drugu. Nakon što se promatranjem međusobnog odnosa svih parova dvaju varijabli utvrdi njihova međusobna korelacija, izrađuje se matrica korelacije. Redovi i kolone matrice predstavljaju promatrane varijable, a podatak na presjeku određenog reda i kolone predstavlja koeficijent korelacije između varijabli u odgovarajućem redu i koloni. Matrica na dijagonali ima podatak 1 (pošto je svaka varijabla sama sa sobom u potpunoj korelaciji). Dobivena matrica je simetrična - podaci iznad i ispod dijagonale za isti par varijabli su identični. Zbog tih svojstava matrica je redundantna i dovoljno je promatrati jedan njezin dio, iznad dijagonale ili ispod dijagonale. Vizualno možemo utvrditi u kojoj mjeri su dvije pojedinačne varijable u korelaciji, koje varijable u međusobnom odnosu imaju najveći ili najmanji koeficijent korelacije, te koji skupovi varijabli se ističu sličnim koeficijentima. Vizualno ne možemo utvrditi na koji način i u kolikoj mjeri više varijabli zajednički utiče na drugu pojedinačnu varijablu.

Višestruka korelacija (multiple korelacija)

Višestruka korelacija je analitička procedura kojom se utvrđuje na koji način više neovisnih varijabli utiče na jednu ovisnu varijablu. Koeficijent višestruke korelacije označava se velikim slovom R. Za računanje koeficijenta višestruke korelacije potrebno je prvo izračunati koeficijente korelacije između svakog para varijabli koje posmatramo. Odnos koeficijenata korelacije varijabli može se prikazati matricom korelacije. Dobivene koeficijente potrebno je uvrstiti u formulu za izračun višestruke korelacije. Podaci višestruke korelacije kod koje se promatra međusobni uticaj tri varijable može se prikazati trodimenzionalnim dijagramom raspršenja – scatter diagram.

Formula za izračun višestruke korelacije kada posmatramo uticaj dvije neovisne varijable na treću, ovisnu, je slijedeća:

Neovisne varijable čije vrijednosti promatramo označene su sa X1 i X2, a ovisna varijabla označena je sa Y. Koeficijent višestruke korelacije poprima vrijednost od –1 do +1, i u njegovoj interpretaciji primjenjuju se ista pravila kao kod interpretiranja koeficijenta jednostavne korelacije. Kako bi račun višestruke korelacije bio što precizniji, potrebno je koristiti veći uzorak sa više vrijednosti varijabli nego u slučaju računanja koeficijenata kod jednostavne korelacije.

Računanje korelacije

Prilikom utvrđivanja korelacije dvaju varijabli, vrlo je važno na ispravan način izabrati varijable koje se posmatraju. Vrijednosti varijabli bi trebale biti izabrane iz slučajnoga skupa. Što je veći broj varijabli koje se posmatraju, to će rezultati biti precizniji. Povećanje broja promatranih vrijednosti varijabli može u velikoj mjeri promijeniti rezultate izračunavanja.

Jednostavni linearni regresijski model

Pretpostavke za jednostavnu linearnu i multiplu regresiju:

  • Odnos između x i y je linearan (uoči razliku između ne-linearne i krivolinijske asocijacije ® može biti transformirana).
  • Sve varijable su nezavisne, nema korelacije s bilo kojom trećom varijablom.
  • Za svaki X, vrijednosti Y su distribuirani normalno
  • Za svaki X, Y distribucija ima istu varijancu.

 

ANOVA
Analiza varijanse (ANALIZA VARIJANSE , ANalisys Of VAriance)

ANOVA je moćni postupak za analizu kvalitete regresijskog modela. Varijansa unutar modela može se particionirati, a zatim se ti dijelovi stavljaju u odnos tako otkrivajući činjenice o modelu!
Regresijski model je onaj s pomoću kojeg procjenjujemo vrijednost jedne varijable na temelju druge.
Matematičko-statistički postupak pomoću kojeg se testira značajnost razlike između aritmetičkih sredina iz tri i više uzoraka.

  • jednog faktora varijabiliteta,
  • dva faktora varijabiliteta,
  • dva faktora varijabiliteta sa više opservacija (posmatranja).

Pretpostavke ANOVE:

  • Podaci su normalno distribuirani
  • Varijance uzoraka su jednake. Pristunost navedene pretpostavke potrebno je   testirati, npr. Bartlettov-im testom!
  • Uzorci izabrani iz populacija su nezavisni

ANOVA služi i za provjeru modela (goodness (or lack) of fit)

Postupak provođenja procedure ANOVA-e

Nakon provođenja Bartlettovog testa, i prihvaćanja pretpostavke kako su razlike među varijancama slučajne, moguće je provesti proceduru ANOVA-e, držeći se sljedećih koraka:

Jednačina ANOVA-e je raščlanjeni zbir kvadrata odstupanja za svih k×n elemenata

Ako je nul-hipoteza istinita:

  • izračunati F je manji od tabličnog
  • razlike između aritmetičke sredine uzoraka su slučajne, a ne signifikantne
  • razlike između SSB i SSW su slučajne, a ne signifikantn (procjene varijance razlikovale bi se zbog sampling varijacija)

Problem ekstremnih vrijednosti -Outlieri

Prilikom računanja korelacije varijabli, potrebno je obratiti pažnju na tzv. outliere. To su vrijednosti varijabli koje u velikoj mjeri odstupaju od ostalih. Zbog načina računanja linije regresije, usamljeni outlieri mogu u velikoj mjeri promijeniti rezultate. Stoga je potrebno prilikom izračunavanja korelacije donijeti odluku o tome da li je možda korisnije takve outliere isključiti i njihove vrijednosti ne koristiti prilikom izračunavanja korelacije.
U tom slučaju outliere tretiramo kao greške koje se događaju prilikom određivanja uzorka. Outliere je najlakše uočiti promatrajući scatter dijagram i tražeći vrijednosti varijabli koje neuobičajeno odstupaju od linije regresije. Odluka o pronalaženju i uklanjanju outliera se s dosta velikom sigurnošću može donijeti kada imamo velik uzorak, a broj outliera je vrlo mali. U slučaju malog uzorka ne možemo biti sigurni da li se radi o outlierima, ili su te vrijednosti dio regularnog skupa podataka.
U određenim slučajevima za pronalaženje i uklanjanje outliera koriste se odgovarajuće kvantitativne metode (npr. uklanjanje svih uzoraka koji odstupaju više od ±2 standardne devijacije od prosjeka grupe). Takvo drastično čišćenje podataka u nekim područjima istraživanjaje je nužno kako bi se dobili ispravni podaci. Za pronalaženje i uklanjanje outliera ne postoje opće prihvaćene metode i pravila tako da je to u potpunosti subjektivno i ovisi isključivo o odluci istraživača u određenoj situaciji.

Reziduali predstavljaju onaj dio varijabilnosti koji nije moguće objasniti modelom.
Reziduali se moraju pažljivo provjeriti jer oni odražavaju ispunjavanje pretpostavki modela – najbolje grafički (posebno za male uzorke kada numerički postupci nisu odgovarajući)

Najbolja krivulja (best fit) regresijske funkcije

Neparametarski statistički testovi

Neparametarski statistički test je test baziran na modelu koji ne uključuje nikakve preduslove u vezi parametara populacije iz koje je uzorak izvučen. Određene pretpostavke su karakteristične za većinu neparametarskih statističkih testova, kao što je na primjer: da su opservacije nezavisne, da je posmatrana promjenljiva neprekidna itd. Ali ovakvih pretpostavki je manje i slabije su nego one kod parametarskih testova. Štaviše, neparametarski testovi ne zahtjevaju tako precizna "mjerenja" kao parametarski testovi. Većina neparametarskih testova je koretktna sa podacima u ordinalnoj skali, a neki i sa podacima iz nominalne skale.

Zbog toga što se neparametarskim testovima moze povećati moć jednostavnim povećanjem n (velicina uzorka), i zbog toga što naučnici često ne mogu da sprovedu mjerenja koja omogućavaju doslovno korištenje parametarskih testova, neparametarskim statističkim testovima pripada značajna uloga u naukama koje koriste statistiku.

Primjer:
Želim li testirati je li neka igrača kocka fer, prikladni model je uniformna razdioba na skupu prvih šest prirodnih brojeva. Dakle, ako je X broj koji se okrene na kocki nakon bacanja, za nulhipotezu uzimamo

Rezltati n = 300 bacanja te kocke dati su u frekvencijskoj tablici:

Dakle, nemamo jakih dokaza da kocka nije fer.