Biologie	Chimie	Didactica	Fizica	Geografie	Informatica
	Istorie	Literatura	Matematica	Psihologie

Baze de date

Index » educatie » » informatica » Baze de date
» baze de date - Consumul de Inghetata

baze de date - Consumul de Inghetata

Capitolul 1

Introducere

1.1. Definirea problemei

Inghetata este un sistem coloidal polidispers si complex, ale carei caracteristici sunt date de lapte si produsele derivate, precum si de celelalte ingrediente adaugate. Ca aliment, inghetata este un produs deosebit de nutritiv, cu o valoare energetica mare, datorita continutului de glucide, lipide si proteine. Inghetata contine vitamine (in special vitamina A si vitaminele din grupa B) si saruri minerale reprezentate, in general, prin sarurile de calciu si de fosfor.

In Romania, inghetata se fabrica in conformitate cu prevederile standardelor tehnice de ramura pentru fiecare produs in parte.

Din punctul de vedere al ofertei, piata produselor de inghetata 'branded' este foarte variata. Numarul firmelor si al marcilor autohtone este in crestere, ceea ce face ca si concurenta sa fie acerba. Fac precizarea ca, fiind vorba de un produs cu un puternic caracter sezonier, datele se refera la perioada de varf a vanzarilor, respectiv mai-septembrie 2003. Inghetata pe bat este prima optiune a consumatorilor, aceasta detinand aproape 44% din preferinte. Anul 2003 a reconfirmat pozitia de lider detinuta de ceva timp de catre compania Delta Romania, aceasta inregistrand, fata de anul precedent, o crestere de 14,5% a valorii vanzarilor brute de inghetata. Prin introducerea unui nou sistem integrat de monitorizare electronica, societatea mentionata si-a sporit investitiile initiale, ajungand in prezent la un total de 40 de milioane de euro, ceea ce i-a permis sa se mentina in topul investitorilor greci din Romania. Potrivit unui studiu de piata, aproape 60% din consumatorii romani de inghetata incearca in mod regulat cel putin unul dintre produsele companiei - singura de acest gen cu acoperire nationala si care dispune in acest moment de o retea de 20.000 de puncte de vanzare. Delta detine un portofoliu extins, constituit din 67 de produse si 25 de marci diferite, pozitionate in functie de segmentele de public-tinta.

Cu siguranta, incepand cu anul 2007, pe piata locala vor intra si alte companii europene. Competitia dintre producatori va fi in avantajul consumatorilor, iar una dintre urmari ar putea fi diminuarea caracterului sezonier al acestui produs. In Romania persista mentalitatea ca inghetata este desertul ideal pe vreme caniculara, motiv pentru care peste 70% din vanzari se inregistreaza in perioada verii.

1.2. Obiectivul proiectului

In acest proiect imi propun sa observ unitatile statistice luate in calcul, in vederea conturarii unei perspective asupra dulciurilor referitor la numarul de inghetate consumate timp de o luna in functie de varsta consumatorilor, sexul consumatorilor si mediul din care provin acestia din urma. Astfel, se urmareste o analiza unidimensionala si bidimensionala, folosind software-ul statistic SPSS.

Capitolul 2

Construirea bazei de date

2.1. Alegerea variabilelor analizate

Pentru a putea efectua aceasta analiza, am ales ca variabile mediul, sexul, varsta consumatorului si numarul de inghetate consumate intr-o luna.

2.2. Definirea variabilelor si introducerea datelor in SPSS

Orice analiza statistica a datelor in SPSS incepe cu pregatirea setului de date. Prezentarea datelor intr-un format care sa permita organizarea si efectuarea analizei lor implica definirea si introducerea datelor. Se efectueaza folosind foile Data View si Variable View din fereastra Data Editor.

Definirea atributelor unei variabile este prima operatie din procesul de pregatire a setului de date.

Figura 2.1. Fereastra Data Editor - Foaia Variable View

Astfel, in Variable View am introdus variabilele in felul urmator:

Variabila "mediu", iar la Value Labels am atribuit variabilei coduri: 1 = "Urban" si 2 = Rural;

Figura 2.2. Fereastra Value Labels

Variabila "sex", iar la Value Labels am atribuit variabilei coduri: 1 = "masculin" si 2 = "feminin";

Figura 2.3. Fereastra Value Labels

Variabila "varsta" reprezinta varsta consumatorilor de inghetata; este o variabila numerica de tip scale;

Variabila "numar" reprezinta numarul de inghetate consumate intr-o luna; este o viariabila numerica de tip scale.

Dupa ce am definit variabilele, vom introduce pe rand datele preluate.

Baza de date este formata dintr-un esantion de 34 de persoane.

Capitolul 3

Verificarea bazei de date

3.1. Depistarea outlier-ilor

Se va face o verificare pentru cele doua variabile numerice: varsta si suma cheltuita lunar pe inghetata de catre consumatori, in vederea stabilirii daca exista sau nu outlier-i. Acestia reprezinta valori care au o abatere mare fata de normal, denaturand rezultatele.

In cazul in care apare o variabila ce nu este distribuita normal se va incerca apropierea acesteia de normalitate. Demersul etapelor pentru depistarea existentei outlier-ilor este urmatorul: Analyze - Descriptive Statistics - Descriptives - Options de unde selectam Mean, Std. Deviation, Variance, Skewness, Kurtosis - Continue - OK. Output-ul va rezulta dupa cum urmeaza:

a) pentru variabila "varsta persoanei":

Figura 3.1. Selectarea optiunii Analyze Descriptive Statistics Descriptives

Figura 3.2. Fereastra Descriptives

Figura 3.3. Output-ul Descriptives

Putem observa ca indicatorii de asimetrie (skewness) si de boltire (kurtosis) au valori mai mici decat 1, astfel putem afirma ca variabila "varsta persoanei" tinde spre o distributie simetrica.

Verificarea outlier-ilor se mai poate face si prin metoda grafica: Graphs - Interactive - Boxplot si rezultatul este:

Figura 3.4. Selectarea optiunii Graphs Interactive Boxplot

Figura. 3.5. Boxplot

Figura 3.6. Histograma

Din cele ce se observa ne putem da seama ca nu exista nici o valoare in afara spatiului de valori.

b) pentru variabila "numar":

Selectarea optiunii Analyze Descriptive Statistics Descriptives, astfel vom obtine:

Figura 3.7. Output-ul Descriptives

Verificarea outlier-ilor efectuata si prin metoda grafica: Graphs - Interactive - Boxplot si rezultatul este:

Figura 3.8. Boxplot

Figura 3.9. Histograma

Dupa cum se poate observa, nu exista outlier in acest caz. Astfel, nu e nevoie sa apelam la transformarea variabilei.

3.2. Verificarea normalitatii distributiilor

Distributia normala este cea mai cunoscuta si mai folosita distributie statistica. Se constituie ca baza pentru statistica inferentiala clasica, folosirea rezultatelor cercetatorilor prin sondaj plecand de la ipoteta ca esantioanele observate provin din populatii distribuite normal.

Simbolizare: Pentru o variabila , care urmeaza o lege normala, de parametri si , vom folosi notatia: ~ .

Majoritatea testelor parametrice cer indeplinirea conditiei de normalitate pentru variabilele considerate. Modelarea statistica cere verificarea normalitatii variabilelor implicate. Interpretarea si inferenta bazate pe astfel de modele nu ar fi valide fara respectarea acestei ipoteze.

Asadar, este deosebit de important ca, inainte de efectuarea procesului de inferenta, sa determinam daca esantionul observat de noi provine dintr-o populatie normal distribuita.

In SPSS, se folosesc doua mijloace de verificare a normalitatii unei distributii:

vizualizarea grafica a diferentelor dintre o distributie empirica si distributia teoretica, folosing histograma, boxplot, P-P Plot si Q-Q plot;

aprecierea numerica a abaterilor distributiei empirice de la distributia teoretica, folosind indicatori din statistica descriptiva si teste statistice.

3.2.1. Procedeul histogramei

Folosirea acestui procedeu pentru a diagnostica daca o distributie este normala presupune compararea histogramei variabilei observate cu modelul curba Gauss.

Obtinerea diagramelor in SPSS presupune demersul urmator: meniul Graphs comanda Histogram.

Figura 3.10. Obtinerea histogramei si curbei normale prin demersul: Meniul Graphs comanda Histogram

Parcurgem acelasi demers si in cazul variabilei "numarul de inghetate consumate intr-o luna": meniul Graphs comanda Histogram.

Figura 3.11. Obtinerea histogramei si curbei normale prin demersul: Meniul Graphs comanda Histogram

Se observa ca, in urma gruparii datelor pe categorii, histogramele sunt asemanatoare. Pentru ambele categorii, "Varsta persoanei" si "Numarul de inghetate consumate intr-o luna", histogramele releva o distributie normala, cu un grad de asimetrie destul de mic.

3.2.2. Pocedeul Q-Q plot

Cu ajutorul SPSS-ului se poate obtine diagrama Q-Q (Quantile Quantile) pentru orice variabila, in scopul verificarii ipotezei de normalitate. Eu voi analiza aceleasi variabile folosite si in cazul histogramei, si anume: "Varsta persoanei" si "Numarul de inghetate consumate intr-o luna".

Pentru aceste variabile s-a construit Q-Q plot parcurgandu-se demersul urmator: Graphs Q-Q plots, care e prezentat si in figura 3.12. Iar diagramele obtinute sunt prezentate in figura 3.13.

Figura 3.12. Fereastra dialog Q-Q plot

Figura 3.13. Q-Q plot pentru variabilele "Varsta persoanei" si "Numarul de inghetate consumate intr-o luna"

Q-Q plot compara valorile ordonate ale variabilelor observate cu valorile guantilice ale distributiei normale.

Daca distributia variabilei testate este normala, atunci punctele Q-Q contureaza o linie care se suprapune cu dreapta care reprezinta distributia teoretica, adica trece prin origine si are panta egala cu unu.

In cazul nostru, Q-Q plot arata ca punctele nu sunt serios deviate de la linia dreapta, ceea ce indica o distributie normala, fapt demonstrat si cu ajutorul histogramei (vezi figura 3.10-3.11).

3.2.3. Procedeul P-P-plot

Pocedeul P-P plot (Percent Percent) compara functia de repartitie a distributiei unei variabile empirice cu functia de repartitie a unei distributii teoretice specificate (in cazul nostru, functia distributiei normale standard).

Costruirea diagramei P-P plot presupune acelasi demers prezentat pentru Q-Q plot, cu deosebirea ca se alege din meniul Graphs comanda P-P.

Diagramele P-P, pentru exemplul dat, sunt prezentate in figura 3.14. Ele evidentiaza aceleasi situatii ca diagramele Q-Q plot, prezentate in figura 3.13.

Figura 3.14. P-P plot pentru variabilele "Varsta persoanei" si "Numarul de inghetate consumate intr-o luna"

3.2.4. Testul Kolmogorov-Smirnov-Lilliefors (K-S-L)

Principiul verificarii normalitatii unei distributii pe baza acestui test consta in compararea frecventelor reale cumulate cu frecventele teoretice cumulate extrase din tabelul Gauss.

In SPSS, verificarea normalitatii cu ajutorul testului K-S-L presupune urmatorul demers: meniul Analyze comanda Nonparametric Test optiunea One-Sample- Kolmogorov-Smirnov Test (vezi figura 3.15).

Figura 3.15. Testul K-S-L corespunzator aplicat la cele doua variabile "varsta persoanelor" si "Numarul de inghetate consumate intr-o luna"

Din cate se observa in output-urile din figura 3.15, Sig-ul este mai mare decat 0,05, ceea ce inseamna un nivel ridicat al gradului de semnificatie, aratand ca distributia este normala.

Capitolul 4

Analiza statistica univariata a datelor

4.1. Descrierea statistica a variabilelor nominale

Mai intai de toate, se parcurge demersul in care se selecteaza succesiv: meniul Analyze comanda Descriptive Statistics optiunea Frequencies butonul de comanda Charts. Din fereastra dialog Frequencies Charts, se stabileste modul de exprimare a valorilor variabilelor (in cazul nostru: "mediul" si "sexul") si se alege butonul de optiuni pentru tipul de grafic dorit: Bar charts sau Pie charts. Butonul de comanda Continue determina revenirea la fereastra Frequencies, din care se activeaza butonul de comanda OK care si finalizeaza crearea graficului. Diagrama aleasa se obtine automat in fereastra de rezultate Output Viewer (vezi figura 4.1).

Figura 4.1. Construirea diagramelor Bar charts si Pie charts pentru variabila "sexul persoanei" prin demersul: meniul Analyze comanda Descriptive Statistics optiunea Frequencies Charts

Figura 4.2. Output-ul pentru variabila "Sexul persoanei"

In urma efectuarii diagramelor si output-ului se poate constata ca sexul masculin detine o pondere de 44,1%, iar cea feminina o pondere de 55,9%.

La fel vom proceda si in cazul variabilei "mediul in care locuieste consumatorul de inghetata". Se parcurg aceeasi pasi, si anume: meniul Analyze comanda Descriptive Statistics optiunea Frequencies butonul de comanda Charts (vezi figura 4.2).

Figura 4.3. Construirea diagramelor Bar charts si Pie charts pentru variabila "mediul in care loruieste persoana" prin demersul: meniul Analyze comanda Descriptive Statistics optiunea Frequencies Charts

Si in cazul acesta, la fel se obsereva din diagrama, cat si din ouput, ca mediul urbani detine o pondere o 58,8%, iar cel rural 41,2%.

Output-ul pentru variabila "mediul"

4.2. Descrierea statistica a variabilelor numerice

Pentru aceasta vom folosi toata statistica descriptiva (media, modul, mediana, suma tuturor observatiilor, abaterea standard, varianta, valoarea minima si valoarea maxima a variabilei selectate, eroarea medie de selectie, boltirea si asimetria) in vederea caracterizarii variabilelor: "Varsta persoanei" si "Numarul de inghetate consumate intr-o luna".

O prima optiune de calcul pe care o prezentam este Descriptives din comanda Descriptive Statistics, din meniul Analyze (vezi figura 4.3).

Figura 4.5. Selectarea optiunii Descriptives

Dupa selectarea optiunii Descriptives, se deschide fereastra de dialog Descriptives (vezi figura 4.4) care ne permite sa selectam variabilele pentru care dorim sa calculam parametrii unei distributii.

Figura 4.6. Fereastra Descriptives

Prin activarea butonului de comanda Options din fereastra Descriptives, se deschide fereastra de dialog Descriptives: Options (vezi figura 4.5). Aici selectam, prin bifare, indicatorii care urmeaza a fi calculati.

Figura 4.7. Fereastra de dialog Decriptives: Options

Butonul de comanda Continue din fereastra dialog Descriptives: Options determina revenirea in fereastra Descriptives, din care prin butonul OK se comanda obtinerea output-ului ce va fi afisat in fereastra de rezultate Output Viewer.

Figura 4.8. Parametrii distributiei "Varsta persoanei" calculati prin demersul: meniul Analyze comanda Descriptive Statistics optiunea Descriptives

Interpretare: Avem 34 de inregistrari (observari) statistice. Varsta minima a consumatorilor de inghetata e 11, iar maxima e 68. Valorile pentru asimetrie si boltire sunt 0,330, respectiv -1,054, valori care sunt mai mici de valoarea 1, aceasta insemnand un grad de asimetrie care tinde spre normalitate.

Acelasi demers il avem si in cazul variabilei "numarul de inghetate consumate intr-o luna". Astfel, avem output-ul:

Figura 4.9. Parametrii distributiei "Numarul de inghetate consumate intr-o luna)" calculati prin demersul: meniul Analyze comanda Descriptive Statistics optiunea Descriptives

Interpretare: Avem 34 de inregistrari (observari) statistice. Distanta de la cel mai mic numar de inghetata consumata in decursul unei luni la cel mai mare este de 24. Numarul minim de inghetata este 3, iar maxim 27. Numarul total de inghetata consumat in decursul unei luni este 477. Valorile pentru asimetrie si boltire sunt 0,179, respectiv -0,560, valori care sunt mai mici decat valoarea 1, aceasta insemnand ca distributia tinde spre normalitate.

Capitolul 5

Analiza statistica bivariata a datelor

5.1. Analiza statistica a gradului de asociere intre doua variabile

Analiza statistica a gradului de asociere intre doua variabile poate fi efectuata cu ajutorul tabelului de asociere (Crosstabs). In fiecare rubrica a tabelului este prezentat efectivul care poarta simultan o valoare a fiecarei variabile.

Obtinerea unui tabel de asociere in SPSS presupune demersul: meniul Analyze comanda Descriptive Statistics optiunea Crosstabs.

Figura 5.1. Alegerea optiunii Analyze Descriptive Statistics Crosstabs

Figura 5.2. Fereastra Crosstabs

Figura 5.3. Output-ul pentru Crosstabs

5.2. Analiza de regresie

Conceptul de "regresie" exprima o legatura de tip statistic, si anume regresia in medie cu privire la comportamentul unor variabile.

Demersul: din meniul Graphs se selecteaza comanda Scatter, care deschide fereastra Scatterplot.

Figura 5.4. Ferestre de dialog Scatterplot

Figura 5.5. Legatura dintre varsta consumatorilor si numarul de inghetate consummate

intr-o luna

Procesul de estimare a parametrilor unui model de regresie in SPSS presupune parcurgerea urmatorului demers: meniul Analyze comanda Regression optiunea Linear, prin care se deschide fereastra de dialog Linear Regression.

Figura 5.6. Fereastra de dialog Linear Regression

Figura 5.7. Model Summary, cazul regresiei simple

Raportul de determinatie R²din Model Summary arata proportia variatiei variabilei dependente explicate prin modelul de regresie si este folosit pentru a evalua calitatea ajustarii (alegerea modelului).

R²ia valori intre 0 si 1. Daca R²este egal cu 0 sau are o valoare foarte mica, atunci modelul de regresie ales nu explica legatura dintre variabile; relatia dintre variabila dependenta si variabila independenta nu coincide cu modelul ales. Daca R²este egal cu 1, atunci toate observatiile cad pe linia de regresie, deci modelul de regresie explica perfect legatura dintre variabile. Asadar, R²este folosit pentru a stabili care model de regresie este cel mai bun.

Pentru exemplul considerat, a rezultat o valoare R=0,837, respectiv, R²=0,701, ceea ce ne arata ca intre numarul de inghetate consumate intr-o luna si varsta persoanelor exista o legatura lineara, directa, stransa.

Figura 5.8. ANOVA pentru regresie

Tabelul ANOVA prezinta rezultatele analizei variantei variabilei dependente sub influenta factorului de regresie si a factorului reziduu.

Statistica test F se obtine ca raport intre media patratelor abaterilor datorate regresiei si media patratelor abaterilor datorate reziduului, calculate cu gradele de libertate corespunzatoare.

Daca testul F ia o valoare mare, iar valoarea Sig. corespunzatoare statisticii F este mica (adica mai mica decat pragul de semnificatie care este egal cu 0,05), atunci variabila independenta explica variatia variabilei dependente si invers.

In exemplul considerat, valoarea Sig. pentru F este mai mic decat 0,05, deci relatia liniara dintre cele doua variabile considerate este semnificativa.

Figura 5.9. Coeficientii de corelatie

Coeficientii de regresie. Tabelul Coefficients prezinta coeficientii nestandardizati ai modelului de regresie estimat, erorile standard ale acestora, coeficientii de regresie standardizati cu erorile standard corespunzatoare, precum si valorile statisticii test t si valorile Sig. corespunzatoare. b_i - din tabelul coeficientilor reprezinta parametrii modelului, adica coeficienti de regresie partiala.

Pentru exemplul dat, valoarea Sig.=0.000 este mai mica decat 0,05, aratand ca b, panta dreptei de regresie, corespunde unei legaturi semnificative intre cele doua variabile.

5.3. Analiza de corelatie

Analiza de corelatie este folosita pentru a studia intensitatea legaturii dintre variabile.

Folosim in SPSS urmatorul demers: meniul Analyze comanda Correlate optiunea Bivariate, prin care se deschide fereastra Bivariate Correlations.

Figura 5.10. Selectarea optiunii Correlate si fereastra Bivariate Correlations

Figura 5.11. Output SPSS pentru procedeul Corelatie

Pentru exemplul considerat s-a obtinut un coeficient de corelatie Pearson egal cu -0,837, ceea ce sugereaza ca intre variabile exista o legatura liniara perfecta, valoarea coeficientului fiind foarte apropiata de -1.

Testarea semnificatiei coeficientului de corelatie este realizata cu ajutorul testului t. Valoarea Sig. corespunzatoare, egala cu 0,000, evidentiaza ca s-a obtinut un coeficient de corelatie semnificativ la un prag de 0,000, adica sunt sanse mai mici de 1% de a gresi daca afirmam ca intre cele doua variabile exista o corelatie semnificativa.

5.4. Analiza dispersionala (ANOVA)

ANOVA este un procedeu de analiza a variantei unei variabile numerice sub influenta unei variabile de grupare.

ANOVA unifactoriala este un procedeu de analiza a variatiei pentru un singur factor cauza. Analiza variatiei se poate realiza daca: esantioanele aleatoare sunt independente, distributiile populatiei din care se extrag esantioanele sunt normale, toate populatiile sunt homoscedastice.

Pentru compararea a trei sau mai multe medii este folosit urmatorul demers: meniul Analyze comanda Compare Means optiunea One-Way ANOVA.

Restrictia de normalitate se verifica observand daca distributia valorilor din fiecare grupa prezinta asimetrie accentuata, daca sunt outlier-i sau alte anomalii. Acestea au fost analizate in Capitolul 3, Verificarea bazei de date.

Restrictia de homoscedasticitate. Una din restrictiile aplicarii ANOVA o contituie homoscedasticitatea, adica se presupune ca variantele grupelor sunt egale. Se poate aplica aceasta ipoteza cu ajutorul testului Levene - Test of Homogeneity of Variances.

Figura 5.12. Mediile, deviatiile standard calculate pe medii, precum si testul Levene de omogenitate a variantelor

Interpretare Valoarea Sig. egale cu 0,627, respectiv 0,848, sunt mai mari decat 0,05, sugerand ca variantele pentru cele 2 medii sunt egale, deci restrictia de homoscedasticitate este indeplinita si astfel se poate aplica ANOVA.

Figura 5.13. Tabelul ANOVA

Interpretare: In tabelul ANOVA din figura 5.9 sunt prezentate: statistica F, valoarea Sig, precum si elementele de calcul pentru statistica test F.

Statistica test F este 2,187, respectiv 0,664, cu o probabilitate asociata Sig. (0,149, respectiv 0,421) mai mare decat 0,05, edidentiaza ca ipoteza de egalitate a mediilor pe grupe nu se respinge, deci mediul nu difera semnificativ in raport cu varsta consumatorilor de inghetata si numarul de inghetata consumata intr-o luna.

Capitolul 6

Estimarea si testarea statistica

Prin estimare se intelege un procedeu prin care se generalizeaza rezultatele observate pe un esantion, la nivelul populatiei din care este extras, adica se afla valoarea unui parametru al unei populatii pe baza datelor inregistrate la nivelul unui esantion extras din aceasta.

6.1. Estimarea parametrilor prin interval de incredere

Estimarea prin interval de incredere presupune aflarea limitelor de incredere ale unui interval care acopera valoarea adevarata a unui parametru al populatiei.

Calculul intervalului de incredere pentru o medie sau o proportie presupune efectuarea urmatoarelor operatii:

calculul valorii tipice de sondaj;

determinarea variabilitatii estimatorului considerat;

alegerea nivelului de incredere (95%, 99%);

calculul limitelor intervalului de incredere.

6.1.1. Estimarea prin interval de incredere a unei medii

Pasii de urmat sunt: meniul Analyze comanda Descriptive Statistics optiunea Explore.

a) pragul de semnificatie: α = 0,05

Figura 6.1. Ferestrele Explore si Explore: Statistics

Figura 6.2. Rezultate SPSS pentru variabila "varsta"

Interpretare: Cu o incredere de 95% putem afirma ca varsta medie a consumatorilor de inghetata este intre 29,19 si 40,15 ani.

Aceleasi rezultate se obtin urmand demersul: meniul Analyze comanda Compare Means optiunea One-Sample T Test.

b) pragul de semnificatie: α = 0,01

Figura 6.3. Fereastra de dialog One-Sample T Test

Figura 6.4. Intervalul de incredere pentru media variabilei "varsta", calculat prin demersul: meniul Analyze comanda Compare Means optiunea One-Sample T Test

Interpretare: Cu o incredere de 99% putem afirma ca varsta medie a consumatorilor de inghetata este cuprinsa intre 27 si 42 ani.

Se poate observa ca daca se modifica nivelul de incredere, atunci se constata ca se schimba si limitele intervalului de incredere.

6.1.2. Estimarea prin interval de incredere a unei proportii

In SPSS nu este calculat direct intervalul de incredere pentru o proportie, astfel se presupun efectuarea unui set de operatii.

1.Calculul estimatiei proportiei unei categorii la nivelul esantionului observat, , unde este numarul unitatilor din esantion din categoria A, iar n volumul esantionului. Acest calcul presupune demersul: meniul Analyze comanda Descriptive Statistics optiunea Frequencies.

2. Se afla valoarea variabilei Z pentru nivelul de incredere considerat.

3. Se calculeaza eroarea standard dupa relatia: , unde

s = este abaterea standard, iar n este volumul esantionului.

4. Se calculeaza limitele intervalului, folosind formula: f ± 1,96.

Figura 6.5. Demersul pentru obtinerea tabelului de frecvente

In continuare, voi estima prin interval de incredere proportia barbatilor in ceea ce priveste consumul de inghetata., folosind esantionul prezentat.

Figura 6.6. Tabelul de frecvente pentru variabila "Sexul persoanei"

Calculul proportiei

Dupa ce am urmat demersul prezentat mai sus, am aflat o proportie de 44,1% pentru persoanele de sex masculin.

Calculul erorii

Pentru f = 44,1%, n = 34, aflam =

Calculul limitelor I.C.

Considerand un scor z = 1,96, obtinem:

Interpretare: Cu o increde de 95% ne puteam astepta ca procentul consumatorilor de sex masculin sa fie cuprins intre 42,7% si 45,5%.

6.2. Testarea statistica

Testarea statistica este un procedeu prin care se poate respinge sau nu o ipoteza formulata asupra unui parametru sau asupra unei distributii.

6.2.1. Testarea egalitatii unei medii cu o valoare specificata (One-Sample T Test)

One-Sample T Test este un procedeu prin care se testeaza daca media unei variabile este egala cu o constanta specificata.

Testarea egalitatii unei medii cu o valoare specificata, folosind acest test, presupune parcurgerea urmatorilor pasi: meniul Analyze comanda Compare Means optiunea One-Sample T Test (vezi figura 6.8).

Figura 6.7. Selectarea optiunii One-Sample T Test si fereastra de dialog corespunzatoare

Output-urile, One-Sample Statistics si One-Sample T Test pentru variabila "Varsta persoanei" prezinta: valoarea medie observata care este egala cu 34,67 ani; valoarea specificata este egala cu 25 ani; diferenta dintre valoarea medie observata si valoarea ipotetica este de 9,67 ani.

Tabelul 6.8. Comenzi in fereastra One-Sample T Test si output-ul corespunzator

Interpretare: Valoarea nivelului de semnificatie Sig egala cu 0,001 este mai mica decat valoarea 0,05, ceea ce arata ca exista o diferenta semnificativa intre valoarea medie observata si cea specificata.

Ca urmare, cu o incredere de 95% putem afirma ca se respinge ipoteza de nul; intre varsta medie observata in esantion si valoarea ipotetica (25 ani) exista diferente semnificative.

Intervalul de incredere pentru diferenta dintre cele doua valori nu contine zero, ceea ce arata ca diferenta este semnificativa.

6.2.2. Testarea egalitatii mediilor a doua esantioane independente

Independent-Samples T Test este un procedeu care se aplica in cazul esantioanelor independente. Astfel, se testeaza daca mediile a doua grupe sunt egale.

Demersul testarii este: meniul Analyze comanda Compare Means optiunea Independent-Samples T Test.

In continuare vreau sa testez daca, la nivelul esantionului observat, varsta medie pentru grupa barbati este diferita de varsta medie pentru femei.

Figura 6.9. Fereastra Independent-Samples T Test

Figura 6.10. Output-ul din Independet-Samples T Test

Interpretare: Testul t este egal cu -0,177, cu 32 grade de libertate si o probabilitate Sig. de 0,861 (mai mare decat 0,05), si ne arata ca pentru mediile celor doua grupe (34,11 si 35,1) nu se poate trage concluzia ca difera semnificativ.

La aceeasi concluzie se ajunge si prin observarea intervalului de incredere pentru diferenta dintre cele doua valori. Intervalul contine zero, ca urmare nu se poate trage concluzia ca diferenta dintre valorile medii ale celor doua grupe este semnificativa.

6.2.3. Testarea egalitatii a doua proportii (Chi-Square)

In SPSS, procedeul Hi-patrat se aplica pentru testarea ipotezelor cu privire la variabile nominale sau variabile ordinale.

In cazul unei variabile nominale, testul Hi-patrat este folosit pentru a verifica daca distributia de frecventa a unei variabile pe categorii corespunde fie cu distributia teoretica a frecventelor relative, fie cu o distributie de frecventa propusa.

Aplicarea procedeului Hi-patrat presupune parcurgerea urmatorilor pasi: meniul Analyze comanda Nonparametric Tests optiunea Chi-Square Test.

Pentru acest test voi considera variabila "sexul persoanei". Vreau sa verific daca proportia persoanelor de sex masculin este egala cu proportia persoanelor de sex feminin.

Figura 6.11. Alegerea optiunilor in fereastra Chi-Square Test

Interpretare: In tabelul frecventelor sunt comparate frecventele observate cu frecventele teoretice. Diferentele sunt prezentate pe categorii in coloana Residual. Se observa ca sunt 15 persoane de sex masculin si 19 de sex feminin. Conform ipotezei de nul, pentru fiecare categorie ar trebui sa fie cate 17 persoane. In coloana Residual sunt prezentate diferentele fata de valorile teoretice, pentru fiecare categorie: -2 si 2.

Se poate trage concluzia ca cele doua categorii de persoane (masculin si feminin) au aceeasi proportie; distributia este uniforma.

Figura 6.12. Output-ul pentru procedeul Hi-patrat in cazul unei variabile categoriale

Concluzii

Se observa ca inghetata este consumata in cantitati mai mari in mediul urban decat in cel rural. Dintotdeauna femeile au iubit dulciurile mult mai mult decat barbatii. Apoi s-ar mai explica si in alt mod faptul ca se consuma mai multa inghetata in mediul urban decat cel rural. Castigurile financiare din mediul urban le depasesc pe cele din mediul rural.

Nu ne ramane decat sa asteptam anul 2007, cand pe piata locala vor intra si alte companii europene, decat cele autohtone. Competitia dintre producatori va fi in avantajul consumatorilor, iar una dintre urmari ar putea fi diminuarea caracterului sezonier al acestui produs. In Romania persista mentalitatea ca inghetata este desertul ideal pe vreme caniculara, motiv pentru care peste 70% din vanzari se inregistreaza in perioada verii. Asa ca nu mai este mult pana cand va sosi anotimpul de vara si ne vom bucura din plin de savoarea dulcei inghetate.

Bibliografie

Elisabeta Jaba, Statistica, Editia a treia, Editura Economica, Bucuresti, 2002

Elisabeta Jaba, Analiza statistica cu SPSS sub Windows, Editura Polirom, Iasi, 2004

Begu, L. S., Statistica si Software statistic, Editura Clauet, Bucuresti, 1999

www.insse.ro

www.spss.ro

Politica de confidentialitate