Prvo poglavlje |
||
Vrste podataka U statistici pod skupom podataka razumijevamo vrijednosti dobivene mjerenjem (ili opažanjem) nekog statističkog obilježja (ili varijable) promatrane (izučavane) skupine objekata ili osoba. Varijabla može biti jednodimenzionalna ili višedimenzionalna. Frekvencijske distribucijeSkupovi diskretnih numeričkih i kategorijalnih podataka opisuju se svojim frekvencijskim distribucijama. Frekvencijske distribucije prikazuju se tabelarno pomoću frekvencijskih tablica ili grafički pomoću stupčastih ili strukturnih dijagrama. Frekvencija ili učestalost vrijednosti varijable (odnosno njenog razreda) je broj pojavljivanja te vrijednosti u skupu podataka, a njena relativna frekvencija je omjer frekvencije i ukupnog broja podataka. Primjer 1.
Na primjer, frekvencija vrijednosti“1” varijable X je 12, a njena relativna frekvencija je 12/80 = 0.15. Ista frekvencijska distribucija grafički je prikazana na slici 1.1 kao stupčasti dijagram frekvencija (tj. visine stubaca predstavljaju iznose frekvencija), na slici 1.2 pomoću stupčastog dijagrama relativnih frekvencija, a na slici 1.3 pomoću strukturnog dijagrama. Stupčasti dijagrami relativnih frekvencija koristi se za grafičko poređenje frekvencijskih distribucija više skupova podataka istoga tipa, na primjer, dobivenih mjerenjem istog statističkog obilježja na raznim uzorcima. Strukturni dijagrami se koriste za prikaz frekvencijskih distribucija varijabli s (relativno) malo razreda. Za prikaz distribucija nominalnih varijabli s (relativno) mnogo razreda najčešće se koriste položeni stupčasti dijagrami s razredima sortiranima po veličini frekvencije. Histogrami i frekvencijske distribucije grupiranih vrijednostiZa razliku od diskretnih numeričkih i kategorijalnih varijabli, vrijednosti se neprekidnih varijabli (u pravilu) ne ponavljaju, pa se skupovi takvih podataka ne mogu prikazivati pomoću frekvencijske distribucije na način opisan . Za njihov prikaz koristimo frekvencijsku distribuciju grupisanih vrijednosti. Preciznije, vrijednosti varijable grupišemo u konačno mnogo intervala, a zatim odredimo frekvencije (i/ili relativne frekvencije) tih intervala. Intervali-klase su predstavljeni sa međusobno disjunktnim intervalima kojima su obuhvaćane sve vrijednosti varijable (tj. klase čine konačnu particiju područja vrijednosti varijable). Primjer 2. 243 306 271 396 287 399 466 269 295 330 Minimalna vrijednost opažane varijable je 74, a maksimalna 523. U nedostatku dodatnih informacija o području mogućih vrijednosti te varijable, pretpostavit ćemo da se one kreću u rasponu od 50 do 550 novčanih jedinica. To područje particioniramo u 10 razreda kako je prikazano u frekvencijskoj tablici grupisanih vrijednosti.
Histogram tog skupa podataka nalazi se na slici 1.4. Budući da je širina svakog intervala jednaka 50, a ujedno je to i dužina osnovice pripadnih pravougaonika, primjetite da visine praovugaonika nisu jednake relativnim frekvencijama. Stem and leaf dijagramStem and leaf dijagram je, u stvari, histogram prikazan pomoću nizova brojeva. Formira se na sljedeći način. Na početku svakog retka, odijeljen vertikalnom crtom zdesna, nalazi se broj koji reprezentira razred, tzv. stabljika (engl. stem). Desno od vertikalne crte slijede ga u nizu druge po značaju znamenke brojeva koji pripadaju tom razredu, tzv. lišće. Dakle, svaka znamenka desno od crte je list (engl. leaf ). Dijagram se sastoji od onoliko redaka koliko ima stabljika (razreda). Primjer 3.
Linijski dijagram i dijagram tačakaZa prikaz malog skupa numeričkih podataka koriste se linijski i dijagram tačaka. Primjer 4.
Primjer 5. Navedeni dijagram tačaka predstavlja uzorak dobiven nezavisnim mjerenjem vremena izvodenja određene radne operacije (u sekundama).
Mjere lokacije Mjere srednje vrijednosti mogu biti potpune i pozicione (nepotpune). U potpune mjere srednje vrijednosti ubrajamo arimetičku, geometrijsku i harmoničku sredinu. u pozicione ubrajamo mod, medijanu i kvantile.
Aritmetička sredina (Srednja vrijednost uzorka) Neka je X numerička varijabla. Aritmetička sredina brojeva (1.1) je broj
Primjer 6.
Problem upotrebe srednje vrijednosti je taj da ona ne opisuje tipični rezultat. Ako jedan rezultat jako odstupa od vrijednosti ostalih podataka, onda će srednja vrijednost biti jako utjecana ovim jednim odstupjaućim rezultatom. Ovakav rezultat se naziva i outsajderom. Alternativna metoda je mediana, ili centar pozicije, ili srednji rezultat.
Medijana skupa podataka (1.1) je vrijednost od X za koju vrijedi da je 50% svih podataka u skupu manje od ili jednako toj vrijednosti i 50% svih podataka je veće od nje ili jednako joj. Primjer 7.
ModMod ili centar aktivnosti je jedna od najstarijih pozicionih vrijednosti koja se jednostavno utvrđuje. Primjer 8.
Primjer 9. 270,000; 290,000; 310,000; 340,000; 370,000; 410,000; 430,000; 470,000; 470,000; 4080000 Srednja vrijednost u ovom slučaju je 710,000. Iako je ova vrijednst tačna, ona ipak ne odražava dostupnu cijenu kuće u South Lake Tahoe-u. Vidimo kako jedna cijena jako odstupa od drugih, 4,08 mil.$
Medijana niza cijena kuća je 390,000$. Vidimo kako nam ova vrijednost bolje odražava stanje, te šta sam kupac treba očekivati pri kupovini. Postoji još jedna alternativna vrijednost koja je također otporna na vrijednosti koje odudaraju, ili outsajdere. Ta vrijednost se naziva Reducirana vrijednost, ona predstavlja srednju vrijednost kada joj se odrežu outsajderi, ili 5% gornje granice i 5% donje granice. Primjer:
Vidimo da srednja vrijednost nije vrijednost uzorka. Da bismo našli medijanu, moramo prvo sortirati podatke:
Mjere raspršenja Uz mjere lokacije, odnosno srednje vrijednosti skupa podataka, važno svojstvo distribucije tih podataka je i kako su podaci raspršeni, često u odnosu na neku srednju vrijednost. Srednja vrijednost, mod, medijana, te reducirani rezultat nekada nisu dovoljno efektivni pokazatelji o uzorku. Zato uvodimo nove pojmove kao što su: disperzija i standardna devijacija . Varijanca -Disperzija slučajne veličine Disperziju možemo računati:
Momenti
Primjer:
Koeficijent varijacije je relativna mjera disperzije i definiše se kao odnos standardne devijacije i aritmetičke sredine. Koeficijent varijacije je neimenovani broj i uobičajeno je da ga izražavamo u procentima. Koristimo ga za poređenje disperzije u slučajevima kada su varijable izražene u različitim jedinicama mjere i kada su aritmetičke sredine varijabli različite. U prethodnom primjeru, varijacioni koeficijent je:
Ovaj podatak nam govori da je standardna devijacija računa u restoranu 34.6% srednje vrijednosti. Matematičar pod imenom Chebyshev je došao do granice, koja ograničava blizinu podataka srednjoj vrijednosti. Čebiševa teorema omogućava istovremeno tumačenje aritmetičke sredine i standardne devijacije.
Primjer: pretpostavimo da je poznata prosječna mjesečna plata 230€, standardna devijacija 15€ i k=2. Primjenom Čebiševe teoreme dobijamo:
Prema teoremi Čebiševa najmanje 75% plata ove distribucije se nalaze u intervalu između 200 i 260€. Srednja vrijednost i standardna devijacija za grupne podatke Računanje srednje vrijednosti iz distribucije frekvencije Obzirom da je računanje srednje vrijednosti i standardne devijacije zamorno, ovaj posao se smanjuje korištenjem frekventne distribucije. Recimo da nas interesuje broj braće i sestara u fakultetskoj statistici studenata. Tabela frekventne distribucije je: Number of Children 1 2 3 4 5 6 7 Frequency 5 12 8 3 0 0 1 Ukupan broj braće i sestara je: 1(5)+2(12)+3(8)+4(3)+7(1)=72
Proširenje tabele distribucija frekvencija
Težinska vrijednost prosjeka Nekada umjesto obične srednje vrijednosti, želimo da vrednujemo neki rezultat više nego druge.
Percentili Primjer: Ako je tvoj rezultat bio 75, u kojem percentilu spada tvoj rezultat?
naš rezultat spada u 29 percentil.
Dijagram pravougaonika (engl. box and whisker) koristi se za grafički prikaz distribucije velikog i malog skupa numeričkih podataka. Iz njega se direktno može očitati medijan, donji i gornji kvartil, interkvartil, raspon, ekstremne vrijednosti i simetrija. Ovaj grafički prikaz omogućava vizuelno pozicioniranje 50% vrijednosti obzervacija unutar box-a i na taj način omogućava analizu disperzije. Za konstrukcijuBox Plota treba izračunati vrijednosti tri kvartila.
|
||
Drugo poglavlje |
||
Vjerovatnoća Teorija vjerovatnoće je matematička disciplina koja izučava zakonitosti masovnih sličnih pojava. One se ispoljavaju pri višestrukom ponavljanju ogleda. Prije svega, uvedimo pojmove koji su nam potrebni za dalje izlaganje. Ogledom (eksperimentom) nazivamo svako ostvarenje određenih uslova ili radnji pri kojima se posmatra izučavana pojava (npr.bacanje novčića, čin izdvajanja jednog iz skupa proizvoda itd.) |
||
![]() |
||
Definicija vjerovatnoće: pri čemu je: Primjer: Neka je E pojava grba i F pojava broja na strani novčića. Pretpostavimo da su događaji E i F jednako mogući. Za svaki od njih broj povoljnih rezultata je 1, a broj svih elementarnih rezultata je 2, tj. m=1 i n=2, pa je: Iz definicije vjerovatnoće slijede njene proste osobine:
Pr(E or F)=Pr(E)+Pr(F) Definišimo razliku između konjukcije i disjunkcije (I i ILI): Primjer: Zeleno područje predstavlja A I B, dok sva obojena područja predtavljaju A ILI B.
Dva događaja zovemo nezavisnim ako vrijedi: Također, za dva događaja kažemo da su međusobno nezevisna ako vrijedi: Primjer: Tada E I F znači da je u prvom bacanju dobiveno 3, a u drugom bacanju 5. Formula pune vjerovatnosti i formula Bayes-a Prethodna jednakost naziva se Bayes-ovom formulom. Pravilo računanja Za E I F uvijek vrijedi:
Primjer:
Primjer: Rješenje:
Razmotrimo slijedeći primjer. Primjer: Rješenje:
RASPODJELA VJEROVATNOĆE
Primjer raspodjele vjerovatnoće: Prema tome, tabela raspodjele vjerovatnoće je:
Definicija: Funkcija raspodjele F(x) ne daje potpunu predstavu o karakteru raspodjele slučajne veličine. Da bi dobili potpunu predstavu o tome uvodi se druga funkcija koja se naziva gustinom raspodjele.
MATEMATIČKO OČEKIVANJE SLUČAJNE VELIČINE Matematičko očekivanje ne karakteriše slučajnu veličinu u potpunosti, jer znajući matematičko očekivanje slučajne veličine ne možemo reći kakvu vrijednost uzima slučajna veličina i kolika su joj odstupanja od matematičke očekivane vrijednosti. Da bi znali kakvo je rasipanje vrijednosti slučajne veličine oko njenog matematičkog očekivanja, uvodi se druga karakteristika koja se naziva disperzija. Disperzija slučajne veličine ima sljedeća svojstva: ZAKONI I FORMULE RASPODJELE VJEROVATNOĆE Formula data sa (**) naziva se Bernulijevom formulom. Posmatrani ogled u kome događaj A nastupa k puta i ne nastupa (n-k) puta obrazuje potpunu grupu događaja, pa vrijedi: Uočimo da se članovi prethodne sume podudaraju sa članovima razvoja binoma: Primjer:
Neka se pod jednakim uslovima izvodi n nezavisnih ogleda. U svakom od njih se može pojaviti događaj A sa vjerovatnoćom p ili događaj Ā sa vjerovatnoćom q (q=1-p). Vjerovatnoća da se pri n ogleda događaj A pojavi k puta i da se ne pojavi (n-k) puta nalazi se Bernulijevom formulom. Međutim, ako posmatramo slučaj da je n dovoljno veliko, a p dovoljno malo, tada pretpostavljamo da je n·p=λ, gdje je λ neki broj. NORMALNA (GAUSS-OVA) RASPODJELA Grafik za opšti slučaj: Grafikon za slučaj da je srednja vrijednost jednaka nuli, a standardna devijacija da je Primjer:
Rješenje:
KONTROLNI GRAFIKON Često želimo ispitati da li neke stvari sa vremenom počinju odstupati od određenih normi. Ilustrirajmo to na primjeru: Na osnovu podataka u tabeli kreirajmo grafikon. Sistem ćemo nazvati „van kontrole“ ukoliko se desi barem jedan od slijedećih slučajeva:
Za naš primjer vrijedi: Primjetimo da dvije od posljednje tri tačke na grafikon leže izvan intervala 2σ što znači da je naš sistem izvan kontrole iz čega zaključujemo da medicinsko osoblje nije efikasno poslije u posljednjim satima rada. Ako imamo normalnu raspodjelu ali ne i standardnu, tada pretvaramo vrijednosti koje karakterišu normalnu raspodjelu u vrijednosti odgovarajuće standardnoj normalnoj raspodjeli preko broja z.
KORIŠTENJE NORMALNE RASPODJELE ZA APROKSIMIRANJE BINOMNE RASPODJELE Binomnu raspodjelu je lahko izračunati ukoliko nam je potrebno samo nekoliko vrijednosti. Ako je potrebno puno vrijednosti tada njihov proračun može biti jako iscrpljujući. Rješenje: Pomoću tabele date u jednom od prehodnih primjera očitamo vrijednost vjerovatnoće. Dobili smo da je 28% šansi da u 1000 bacanja kocke, 6 bacimo manje od 160 puta. Rezimirajmo terminologiju Primjer: Raspodjela probanja za proporcije
Treće poglavlje
Procjene tačke Proporcije uzorka Primjer: recimo da nas interesuje proporcija amerikanaca koji se nalaze ispod granica siromaštva. Umjesto pokušaja da pronađu sve amerikance koji se zaista nalaze an rubu siromaštva, kongres je predložio statističko ‘sempliranje’. Na taj način se možemo koncentrisati 10,000 nasumično odabranih ljudi sa 1000 lokacija. Možemo utvrditii proporciju ljudi ispod granica siromaštva u svakoj pojedinačnoj regiji. Recimo da ta proporcija ili omjer iznosi 0.08, onda je srednja vrijednost za distribuciju uzorka Intervali pouzdanosti za srednje vrijednosti (za velike i male uzorke) Obično nam nije poznata srednja vrijednosti populacije i standardna devijacija. Naš cilj je procijeniti ove brojeve. Standardni način da bismo ovo postigli je da koristimo srednju vrijednost uzorka i standardnu devijaciju kao najbolji pogodak stvarne srednje vrijednosti populacije i standardne devijacije. Ovo nazivamo najboljim pogotkom tačke procjene. Nije nam samo od interesa da nađemo tačku procjene za srednju vrijednost, već i da utvrdimo koliko je precizna tačka procjene. Centralni granični teorem ovdje igra ključnu ulogu. Pretpostavljamo da standardna devijacija uzorka je bliska standardnoj devijaciji uzorka (što je uglavnom istinito za velike uzorke). Onda nam iz centralnog graničnog teorema slijedi da je standardna devijacija distribucije uzorka : od interesa nam je naći interval oko x, takav da je velika vjerovatnoća da stvarna srednja vrijednost leži unutar ovog intervala. Ovaj interval se naziva i interval pouzdanosti, a velika vjerobatnoća se naziva nivo pouzdanosti. Primjer:
Primjer:
Intervali pouzdanosti za proporcije i izbor veličine uzorka Interval pouzdanosti velikog uzorka za omjere populacije Prisjetimo se da je interval pouzdanosti za srednju vrijednost populacije dat sa:
Primjer: Odakle zaključujemo da između 57 i 63 posto svih amerikanaca se slaže sa prijedlogom. Drugim riječima, sa marginom greške od 0.03m, 60% se slaže.
Računanje n za procjenu srednje vrijednosti Odakle vidimo da bi se istraživanje trebalo provesti na najmanje 52 osobe.
Pronalaženje n za procjenu omjera Primjer: Rješenje:
Dobili smo formulu preko koje ćemo naći n. Kako ne znamo p, koristimo 0.5 (konzervativna procjena) Znači, moraćemo ispustit najmanje 426 kompjutera. Ovo bi moglo biti skupo!
Intervali pouzdanosti za različitost između dvije srednje vrijednosti populacije ili proporcija Procjena različitosti Razlika između srednjih vrijednosti Ispitali smo 50 ljudi iz siromašniog dijela grada i 70 ljudi iz bogatog dijela o njihovim stavovima prema manjinama. Prebrojali smo broj negativnih komentara. Cilj nam je bio usporediti njihove stavove. Prosječan broj negativnih komentara u siromašnom dijelu bio je 14, a u bogatom 12. Standardna devijacija je 5 i 4, respektivno. Utvrdimo 95%-tnu pouzdanost za razliku u srednjoj vrijednosti negativnih komentara. Prvo moramo navesti neke formule.
Možemo zaključiti da je razlika srednjih vrijednosti između brojeva rasnih uvreda koje naprave bogati i siromašni ljudi je između 0.3 i 3.7. Mali uzorci Kada je bilo koji uzorak mali, možemo i dalje statistički ga obrađivati približno normalnom raspodjelom. Ako još dodatno znamo da su dvije standardne devijacije približno jednake, onda možemo udružiti podatke u cilju združene standardne devijacije. Imamo slijedeći teorem: Primjer:
Razlika u prosjeku milja proputovanih u slučaju studenata i profesora je između 2.8 i 14.6. Pretpostavili smo da su standardne devijacije približno jednake i da su dvije raspodjele približno normalne. Dosada smo diskutovali razliku između dvije srednje vrijednosti (malih i velikih uzoraka). Naš slijedeći zadatak je procijeniti razliku između dva omjera (proporcije). Imamo slijedeži teorem:
Četvrto poglavlje
Testiranje hipoteza za proporcije i mali broj uzoraka Primjer: Testiranje hipoteza za proporcije
Testiranje hipoteza za uparene razlike Primjer:
Razlike parova: Intervali pouzdanosti Primjer: Rješenje:
Znači, 95% smo sigurni da je srednja razlika u intervalu pouzdanosti [-0.29, 0.43]. Primjetimo da 0 pripada ovome intervalu, tako da ne možemo odbiti nultu hipotezu. REZIME KORAKA ZA TESTIRANJE HIPOTEZA Regije odbijanja
p-vrijednosti
z-tabela ili t-tabela
Razlike između srednjih vrijednosti Ilustrirajmo slijedeći pimjer: Rješenje:
Kritična vrijednost broja z, pročitana iz tabele, za ovaj slučaj iznosi 1.645 tako da vrijednost 0.988 ne pada u kritični region što vidimo sa slike. Zbog toga ne možemo odbiti nultu hipotezu i zaključujemo da nemamo dovoljno dokaza da smatramo da uposlenici bolje obavljaju svoj posao uz muziku. Testiranje hipoteza za razlike među srednjim vrijednostima u slučaju malih uzoraka Sjetimo se da u sličaju malih uzoraka moramo pretpostaviti slijedeće:
Primjer: Rješenje:
Kritična t-vrijednost koja odgovara stepenu slobode 17 i α=0.05 jednaka je 2.11, a to je vrijednost veća od dobijene vrijednosti 0.84, što znači da 0.84 nije u kritičnom regionu. Iz toga slijedi zaključak da nemamo dovoljno dokaza da odbijemo nultu hipotezu, tj. nemamo dovoljno pokazatelja da možemo razlikovati da postoji razlika između broja dana koje psi i mačke mogu preživjeti bez hrane. Testiranje hipoteza za razlike među proporcijama Ako se dva uzorka razmatraju neovisno jedan od drugoga tada koristimo statistički test:
Primjer: Rješenje:
Kritična vrijednost za z je 1.96. Pošto se 2.68 nalazi u kritičnom regionu, odbacujemo nultu hipotezu, te možemo zaključiti da ima spol „igra ulogu“ kada se radi o problemima sa drogom.
Peto poglavlje
Regresiona analiza je metod kojim se ispituje i utvrđuje zavisnost između dvije ili više promjenljivih, tj. sagledava uticaj promjene jedne ili više promjenljivih na promjenu drugih promjenljivih. Pri tome su x1, x2, ..., xk nezavisne promenljive koje utiču i uslovljavaju veličinu zavisno promenljive y. Nezavisno promenljive se u teoriji eksperimenta nazivaju faktori, a zavisno promenljiva rezultat eksperimenta. Naziv regresija (povlačenje, vraćanje unazad) nastao je slučajno i nema nikakve veze sa metodom. Potiče iz proučavanja nasljeđa (uticaj visine očeva na visinu sinova) koju je izvodio engleski antropolog F. Galton krajem XIX vijeka. Pokazalo se da između njih postoji zavisnost, odnosno tendencija, da sin bude iste visine kao i otac, ali da su sinovi ipak manji od očeva. Od tada je metod ispitivanja zavisnosti između pojava, odnosno povlačenje od osnovnog zaključka, u matematičkoj statistici dobio naziv regresiona analiza. U matematici postoje dva oblika zavisnosti : U svakoj naučnoj disciplini osnovni problem je utvrđivanje veza između promjenljivih veličina. Te veze mogu biti potpuno određene. Na primjer, u fizici se može utvrditi tačna funkcionalna zavisnost između udaljenosti objekata od zemlje i gravitacione sile, ili između gasa u zatvorenoj posudi i temperature. Regresiona analiza predstavlja bilo koji statistički metod gdje srednja vrijednost jedne ili više nasumičnih varijabli je procjenjena na osnovu neke druge izmjerene nasumične varijable. Vrijednosti mjerenja predstavljene su kao parovi rezultata koji se sastoje od podatka za nezavisnu varijablu (obično varijablu X) i od podatka za zavisnu varijablu (obično varijablu Y). Postoje dva tipa regresione analize, ovisno od toga da li podaci se mogu aproximirati pravcem (linearna) ili ne mogu (nelinearna). Dijagrami rasipanja/ raspršenja i regresione linije Dijagram raspršenja (rasipanja) predstavlja grafički prikaz zavisnosti i međuzavisnosti između promenljivih, za koje se ne može utvrditi funkcionalna zavisnost, niti se može precizno iskazati određenje koji od datih skupova podataka predstavlja nezavisnu, a koji zavisnu promjenljivu. Zavisnost i međuzavisnost, zavisno od oblika dijagrama rasipanja, može biti: Slika 1- (različiti oblici dijagrama rasipanja zavisnosti između dvije promjenjive)
Intenzitet veze, koja se ocjenjuje na osnovu položaja eksperimentalnih tačaka u dijagramu rasipanja, može biti: • jaka međuzavisnost, koja pokazuje da su eksperimentalne tačke na dijagramu rasipanja vrlo bliske nekoj funkcionalnoj zavisnosti, odnosno teorijskoj aproksimativnoj krivoj (slika 1-a, slika 1-b i slika 1-c), (ako se sve eksperimentalne tačke na dijagramu rasipanja nalaze na aproksimativnoj krivoj tada se kaže da postoji potpuna međuzavisnost, što je jedna teorijska mogućnost, slučaj kada je i koeficijent korelacije jednak jedinici: r=1)
Gornji dijagram rasipanja predstavlja vezu između starosti i veličine biljke. Jasno je sa dijagrama rasipanja da kako biljka stari ima tendenciju da raste. Ako je slučaj da tačke slijede neki linearni model, onda kažemo da je visoka linearna korelacija, u suprotnom, ako tačke ne slijede neki linearni obrazac, kažemo da nema linearne korelacije. Ako podaci do nekog nivoa slijede linearnu putanju, kažemo da je umjerena linearna korelacija. Primjer 1:
Dijagram rasipanja se koristi da bi se ilustrovalo kako izlazne promjenljive karakteristika kvaliteta (objekta istraživanja) variraju zbog nekog određenog faktora (promenljive). Eksperimentalni podaci zavisnosti između viskoziteta η i vremena t, pri sintezi alkidnih smola, mogu se aproksimirati eksponencijalnom regresijom. Ukoliko pretpostavimo linearnu vezu između posmatrnih varijabli problem koji se postavlja u ovom slučaju je slijedeći: kako izabrati kriterij konstrukcije i zatim konstruisati najbolju pravu prema tom kriteriju konstrukcije. Tražimo pravu koja najbolje odgovara tim podacima,čija je jednačina.
Gdje su a i b nepoznati parametri koje treba ocijeniti, konstantni član a predstavlja vrijednost regresijske funkcije kada je nezavisna varijabla jednaka nuli. Regresijski koeficijent b pokazuje koliko se linearno mijenja vrijednost zavisne varijable ako se nezavisna varijabla promijeni (poveća ili smanji) za jedinicu mjere. a i b ćemo pronaći na slijedeći način: Primjer 2: Podaci su prikupljeni da bi se usporedilo dužina vremenea x(u mjesecima) koje su parovi proveli u vezi, sa količinom novca y, koji su potrošili kada bi izlazili vani. Jednačina regresionog pravca je: y=70-5x Y-odsječak nam kaže da je na početku veze prosječni sastanak koštao 70$. A vidimo da svakim dodatnim mjesecom sastank je koštao 5$ više nego prethodni. Možemo koristiti regresionu pravu da bismo predvidjeli količinu novca poslije, recimo 6 mjeseci trajanja veze. Imamo:
Primjer 4:
Očito se radi o linearnoj povezanosti između opaženih vrijednosti varijabli X = “zahtjev” (za isplatom šteta) i Y = “isplata” (od strane društva).
DEFINICIJA KORELACIJEKorelacija (lat. con = sa, relatio = odnos) predstavlja suodnos ili međusobnu povezanost između različitih pojava predstavljenih vrijednostima dvaju varijabli. Pri tome povezanost znači da je vrijednost jedne varijable moguće sa određenom vjerojatnošću predvidjeti na osnovu saznanja o vrijednosti druge varijable. Odnos između varijabli Tačke presjeka kreću se oko određenog pravca koji se naziva linija regresije. Što su tačke bliže pravcu, korelacija je veća. Što su tačke raspršenije korelacija je manja. U praksi je vizualno vrlo teško, osim u slučaju »savršene« korelacije odrediti stupanj povezanosti između varijabli. Ovisno o međusobnom odnosu dvaju varijabli među kojima postoji korelacija, ona može biti linearna ili nelinearna. Kod linearne korelacije, točke su grupirane oko pravca. Kod nelinearne korelacije, točke su grupirane oko neke druge krivulje. Dvije varijable koje promatramo sa ciljem utvrđivanja njihove korelacijske povezanosti mogu biti u 4 različita odnosa: 1. kada mala vrijednost jedne varijable odgovara maloj vrijednosti druge varijable, kao i kada velika vrijednost jedne varijable Koeficijenti korelacijeKoeficijenti korelacije izražavaju mjeru povezanosti između dvije varijable u jedinicama neovisnima o konkretnim jedinicama mjere u kojima su iskazane vrijednosti varijabli. Postoji više koeficijenata korelacije koji se koriste u različitim slučajevima. U praksi se prilikom rada s linearnim modelima najčešće koristi Pearsonov koeficijent korelacije (produkt moment koeficijent korelacije). Prilikom rada s modelima koji nisu linearni najčešće se koristi Spearmanov koeficijent korelacije (produkt rang koeficijent korelacije). Pearsonov koeficijent korelacije (engl., Pearson correlation coefficient)Možemo reći da postoji lineara povezanostizmeđu x i y ako je nacrtan pravac kroz tačke koji omogućava najprikladniju procjenu opaženog odnosa. Mi mjerimo koliko su naša opažanja blizu pravcu koji najbolje opisuju njihovu linearnu povezanost računanjem Pearsonovog koeficijenta korelacije umnožaka (engl. Pearson product moment correlation coefficient), najčešće jednostavno zvan koeficijent korelacije (engl. Correlation coefficient). Njegova tačna vrijednost u populaciji, ρ, procijenjuje se u uzorku s r. Pearsonov ili uzorački koeficijent korelacije koristi se u slučajevima kada između varijabli posmatranog modela postoji linearna povezanost i neprekidna normalna distribucija. Vrijednost Pearsonovog koeficijenta korelacije kreće se od +1 (savršena pozitivna korelacija) do –1 (savršena negativna korelacija). Predznak koeficijenta nas upućuje na smjer korelacije – da li je pozitivna ili negativna, ali nas ne upućuje na snagu korelacije. Pearsonov koeficijent korelacije bazira se na usporedbi stvarnog utjecaja posmatranih varijabli jedne na drugu u odnosu na maksimalni mogući utjecaj dviju varijabli. Označava se malim slovom r. Za izračunavanje koeficijenta korelacije potrebna su tri različite sume kvadrata (SS): suma kvadrata varijable X, suma kvadrata varijable Y i suma umnoška varijabli X i Y. Suma kvadrata varijable X jednaka je sumi kvadrata odstupanja vrijednosti varijable X od njezine prosječne vrijednosti:
Prosječna vrijednost varijable X jednaka je:
Suma kvadrata varijable Y jednaka je sumi kvadrata odstupanja vrijednosti varijable Y od njezine prosječne vrijednosti:
Prosječna vrijednost varijable Y jednaka je:
Suma umnožaka varijabli X i Y jednaka je sumi umnožaka odstupanja vrijednosti varijabli X i Y od njihovih prosjeka:
Koeficijent korelacije jednak je omjeru:
Pogrešno je računati Pearsonov koeficijent korelacije, r:
Testiranje hipoteza za Pearsonov koeficijent korelacijeŽelimo saznati da li postoji ikakva linearna povezanost (korelacija) između dvije numeričke varijable. Naš uzorak se sastoji od n nezavisnih parova vrijednosti x i y. Pretpostavljamo da barem jedna od dvije varijable slijedi normalnu distribuciju.
Spearmanov koeficijent korelacijeSpearmanov koeficijent korelacije (produkt rang korelacije) koristi se za mjerenje povezanosti između varijabli u slučajevima kada nije moguće primjeniti Pearsonov koeficijent korelacije. Bazira se na tome da se izmjeri dosljednost povezanosti između poredanih varijabli, a oblik povezanosti (npr. linearni oblik koji je preduslov za korištenje Pearsonovog koeficijenta) nije bitan. Slučajevi u kojima se koristi Spearmanov koficijent su npr. kada među varijablama ne postoji linearna povezanost, a nije moguće primjeniti odgovarajuću transformaciju kojom bi se povezanost prevela u linearnu.
Koeficijent determinacije
Matrica korelacijePonekad nam u istraživanju nije dovoljna informacija o korelaciji dvije promatrane varijable, već nas zanima na koji način više varijabli međusobno utiče jedna na drugu. Nakon što se promatranjem međusobnog odnosa svih parova dvaju varijabli utvrdi njihova međusobna korelacija, izrađuje se matrica korelacije. Redovi i kolone matrice predstavljaju promatrane varijable, a podatak na presjeku određenog reda i kolone predstavlja koeficijent korelacije između varijabli u odgovarajućem redu i koloni. Matrica na dijagonali ima podatak 1 (pošto je svaka varijabla sama sa sobom u potpunoj korelaciji). Dobivena matrica je simetrična - podaci iznad i ispod dijagonale za isti par varijabli su identični. Zbog tih svojstava matrica je redundantna i dovoljno je promatrati jedan njezin dio, iznad dijagonale ili ispod dijagonale. Vizualno možemo utvrditi u kojoj mjeri su dvije pojedinačne varijable u korelaciji, koje varijable u međusobnom odnosu imaju najveći ili najmanji koeficijent korelacije, te koji skupovi varijabli se ističu sličnim koeficijentima. Vizualno ne možemo utvrditi na koji način i u kolikoj mjeri više varijabli zajednički utiče na drugu pojedinačnu varijablu. Višestruka korelacija (multiple korelacija) Višestruka korelacija je analitička procedura kojom se utvrđuje na koji način više neovisnih varijabli utiče na jednu ovisnu varijablu. Koeficijent višestruke korelacije označava se velikim slovom R. Za računanje koeficijenta višestruke korelacije potrebno je prvo izračunati koeficijente korelacije između svakog para varijabli koje posmatramo. Odnos koeficijenata korelacije varijabli može se prikazati matricom korelacije. Dobivene koeficijente potrebno je uvrstiti u formulu za izračun višestruke korelacije. Podaci višestruke korelacije kod koje se promatra međusobni uticaj tri varijable može se prikazati trodimenzionalnim dijagramom raspršenja – scatter diagram. Formula za izračun višestruke korelacije kada posmatramo uticaj dvije neovisne varijable na treću, ovisnu, je slijedeća:
Neovisne varijable čije vrijednosti promatramo označene su sa X1 i X2, a ovisna varijabla označena je sa Y. Koeficijent višestruke korelacije poprima vrijednost od –1 do +1, i u njegovoj interpretaciji primjenjuju se ista pravila kao kod interpretiranja koeficijenta jednostavne korelacije. Kako bi račun višestruke korelacije bio što precizniji, potrebno je koristiti veći uzorak sa više vrijednosti varijabli nego u slučaju računanja koeficijenata kod jednostavne korelacije. Računanje korelacije Prilikom utvrđivanja korelacije dvaju varijabli, vrlo je važno na ispravan način izabrati varijable koje se posmatraju. Vrijednosti varijabli bi trebale biti izabrane iz slučajnoga skupa. Što je veći broj varijabli koje se posmatraju, to će rezultati biti precizniji. Povećanje broja promatranih vrijednosti varijabli može u velikoj mjeri promijeniti rezultate izračunavanja. Jednostavni linearni regresijski modelPretpostavke za jednostavnu linearnu i multiplu regresiju:
ANOVA
|
||