Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

DEĞİŞEN VARYANS

No description
by

aslı okyay

on 25 March 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of DEĞİŞEN VARYANS

DEĞİŞEN VARYANS
SORUNU

design by Dóri Sirály for Prezi
(Heteroscedasticity)
DEĞİŞEN VARYANS
Değişen varyans hata teriminin varyansının tüm gözlemler için aynı olmaması durumudur.
sabit varyans
degişen varyans
(homoscedasticity)
(heteroscedasticity)
Hata teriminin koşullu varyansının değişkenlik göstermesi özellikle yatay-kesit veri analizinde sık rastlanan bir problemdir.
Bunun bir sebebi y’nin koşullu dağılımının popülasyonun farklı kesimlerinde değişkenlik göstermesidir.
Örneğin hanehalkı tasarruflarının gelir düzeyi ile açıklandığı bir modelde tasarrufları gelir düzeyine bağlı olarak değişkenlik gösterebilir. Düşük gelir düzeylerinde tasarrufların varyansı daha düşük, yüksek gelir düzeylerinde ise daha yüksek olabilir.
DEĞİŞEN VARYANS
Gauss-Markov varsayımlarından biri hata teriminin varyansının sabit olduğunu söyler.
Bu varsayıma göre gözlenemeyen hata terimindeki varyans açıklayıcı değişkenlerle ilişkili olamaz.
Örnekleme yaptığımız popülasyonun farklı kesimlerinde varyans değişiyorsa bu varsayım sağlanmaz.
Bu varsayım altında bağımlı değişkenin koşullu
varyansı da sabittir.
SABİT VARYANS
Sabit Varyans (Homoscedasticity) Varsayımı Altında Basit
Regresyon Modeli
Degişen Varyans - Heteroskedasticity
--------------------------------------------------------------
ERDEM PALACAN
SUZAN ASLI OKYAY

X değerlerine bağlı olarak Y ’nin koşullu varyansı, X değişkeni hangi değerleri alırsa alsın değişmemeli, yani sabit varyanslı olmalıdır. Ortalama değişse bile ortalama etrafındaki dağılım değişmemelidir. Aksi halde değişen varyans durumundan söz edilir.
i
i
Değişen varyansin nedenleri
Hatasını öğrenen modeller:
İnsan davranışları. Araba kullanma tecrübesi arttıkça hem trafik hataları hem de bunların varyansı azalır. Ya da klavye kullanımı arttıkça yazım hataları sayısı azalır
Veri derleme teknikleri:
Veri derleme teknikleri geliştikçe varyans küçülür. Yani artık ortalamadan çok fazla sapma oluşmaz.
Dışa düşenlerin varlığı:
Serinin çok uçtaki aşırı değerleri ortalamadan sapmalara neden olur.
Model kurma hataları:
Özellikle gerekli açıklayıcı değişkenlerden biri ihmal edildiğinde de değişen varyansa rastlanmaktadır.
Değişen varyansin nedenleri
Değişen varyans sorunu genellikle yatay kesit verileriyle tahmin yapıldığında ortaya çıkar.
Gelir arttıkça insanların gelirini harcamak için daha fazla seçim alanı olur.
Gerçekleşen tüketim değerleriyle tahmin
edilen (çizgi üzerindeki) tüketim değerleri
arasındaki fark, hata terimi tahminini
vermektedir ve gelir arttıkça bunlar da
büyümektedir. Bu durumda hata teriminin
varyansı da giderek artmaktadır.
Spesifikasyon hataları olması durumunda, özellikle dışlanan değişken varsa değişen varyans sorunu ortaya çıkabilir.
Değişen varyansin nedenleri
ARCH : Otoregresif koşullu değişen varyans (Autoregressive Conditional Heteroscedasticity)
Değişen varyans sorunu zaman serileriyle yapılan tahminlerde de ortaya çıkabilir.
Özellikle enflasyon, hisse senedi fiyatları, döviz kurları gibi volatilitenin zaman içinde
değiştiği verilerde gözlenmektedir. Hata terimi varyansları hem geçmiş dönemlerin
hata terimleri ile ilişkilidir hem de dalgalanmalar gösterir.
Değişen varyansin nedenleri
Hata terimlerinin t dönemindeki koşullu varyansı:
Bu modelinin geçerli olması için 'ün pozitif olması, bunun için de tüm katsayıların pozitif olması gerekir. Çünkü varyans negatif değer alamaz.
'deki genel model ARCH(p) sürecini yansıtır. Bu durumda örneğin ARCH(1);
'dir.
Biçimsel olmayan yöntemler
Biçimsel Yöntemler
DEĞİŞEN VARYANS SORUNUNUN SAPTANMASI
Grafik yöntemi: Değişen varyansla ilgili önceden elimizde bilgi yoksa hata tahmin karelerinin grafiği incelenerek sistematik bir şekil verip vermediğine bakılabilir. Hata tahminleri hata terimleri ile aynı değildir fakat özellikle örneklem büyüklüğü yeterince genişse iyi bir tahminini verir. Dikey eksende hata tahmin kareleri, yatay eksende Y’nin tahmin değerleri varken:
Birinci grafikte
arasında sistematik bir ilişki görünmemektedir. Ama diğerlerinde sistematik ilişki vardır.
Örneğin 3. de doğrusal bir ilişki 4. ve 5. de karesel bir ilişki vardır.
Bizim elde ettiğimiz grafik özellikle 1. grafikte olduğu gibi bir ilişki göstermiyorsa yatay eksende açıklayıcı değişkenlerden birinin olduğu grafik de kullanılabilir.
Park Testi:
Park testi bir anlamda grafiği formülize etmektir.
Beta anlamlı ise verilerde değişen varyansın olduğu kabul edilir.
Glejser Testi:

Glejser testi de Park testine benzer, ilk başta regresyon denklemi bulunur ve daha sonra elde edilen u ’nin mutlak değeri X ’ler ile regrese edilir.

İ
İ
Matematiksel gösterimi;
En küçük kareler yöntemi ile tahmin edildiginde
şeklinde gösterilir.
Beta parametresi anlamlı ise değişen varyans durumu ile karşılaşırız.
2
Spearman Sıra Korelasyonu Testi:

Spearman’s Rho testi verilerin kesikli, sayısal ve nitelik olduğu durumlarda kullanılanılır.
Spearman sıra korelasyon katsayısı (r ) :
s
ile verilir.
di: i. Gözlemin sıra numaraları arasındaki fark
n: Gözlem sayısı
Goldfeld-Quandt Testi:
Hata terimi varyansındaki değişmeler açıklayıcı değişkenlerden birisi ile ilişkilendirilebiliyorsa bu test uygulanabilir.
denkleminde varyans(i), X(i) ile pozitif ilişkili olsun,
Bu denkleme göre X(i) büyüdükçe varyans(i) de büyüyecektir.
Böyle bir durumda modelde değişen varyansın olacağı beklenir.
.
Guldfeld- Quandt testini uygulamak için;
1) Bağımsız değişken küçükten büyüğe doğru sıralanır.
2) Bir C sayısı belirlenir ve serinin ortasındaki C kadar gözlem seriden atılır. Seri (n-C)/2 şeklinde ikiye ayrılır.
3) İlk dilime ve son dilime EKK uygulanır ve Hata kareleri Toplamı (HKT) iki seri için ayrı ayrı hesaplanır.

4) Daha sonra F istatistiğine uyumlu lambda değeri hesaplanır.
lambda = (HKT /sd)/(HKT /sd) serb. der. = (n-C-2k)/2
1
2
Eğer lambda değeri tablodaki kritik F* değerini aşıyorsa değişen varyanstan söz edilebilir. lambda > F*
Breusch-Pagan-Godfrey (BPG) Testi:
White Testi:
Asıl denklem aşağıdaki gibi olsun
DEĞİŞEN VARYANS SORUNUNUN SAPTANMASI
k değişkenli regresyon denklemini ele alalım;
1) Model tahmin edilir ve Hata terimleri ile maksimum olabilirlik tahmin edicisi elde edilir.
2) Pi gibi bir değişken belirlenir.
3) Pi, M ile regrese edilir.
4) Hipotezimiz kurulur.
5) H0 hipotezi kabul edilirse parametreler anlamsızdır. Değişen varyans yoktur.
White testi bir LM testidir ve diğer LM testlerinde olduğu gibi asıl denkleme ek olarak bir yardımcı denklem tahmini gerektirir. Testin arkasındaki temel düşünce şudur: Eğer sabit varyans varsa E(u ) = sigma dır. X’ler veya X’lerin fonksiyonu olan değişkenler u yi
açıklamaz. Bu nedenle sol taraf değişkeninin u , sağ taraf değişkenlerinin X’lerin bir fonksiyonu olduğu bir yardımcı denklem tahmin edilir. Değişen varyans sorunundan şüpheleniliyor ama formu hakkında bir fikrimiz yoksa White testi uygun bir testtir.
i
2
i
2
i
2
1- Asıl denklem tahmin edilerek hata tahmin kareleri bulunur:
2- Aşağıdaki yardımcı denklem tahmin edilir:
Bu yardımcı denklem için R hesaplanır.Buna R diyelim.
3- Boş hipotez değişen varyans olmadığı şeklindedir:
R nin n ile çarpımı asimptotik olarak ki-kare dağılımına sahiptir ve serbestlik derecesi yardımcı denklemde yer alan sabit dışındaki açıklayıcı değişken sayısıdır.
(burada f asıl denklemde bulunmayıp yardımcı denklemde bulunan değişken sayısıdır)
4- Eğer hesaplanan değeri tablo değerinden büyükse H0 reddedilir. Yani değişen varyans
sorunu var demektir. Eğer büyük değilse değişen varyans sorunu yoktur.
y
2
2
2
Y
ARCH-LM Testi:
ARCH için yapılan LM testinde asıl denkleme
ek olarak bir yardımcı denklem tahmin edilir.
Yardımcı denklemdeki gecikme sayısı p araştırmacıya kalmıştır.
White testinde olduğu gibi test istatistiği olarak ki-kare dağılımlı değişkenler kullanılabilir:
Hesaplanan değer tablo değerinden büyükse H0 reddedilir ve modelde ARCH vardır sonucuna
ulaşılır
Ağırlıklandırılmış En Küçük Kareler (Weighted Least Squares - WLS)

Değişen Varyans Probleminin Çözümü
Değişen varyans durumunun ortadan kaldırılması için önerilen çözümler;

Unutulmuş önemli bir açıklayıcı değişken varsa bu değişkenin modele ilave edilmesi.
Değişkenlerde dönüşümler yapılması.
Ağırlıklı en küçük kareler yönteminin uygulanması.
WLS yöntemi değişen varyansın formuna ilişkin bilgiyi gerektirir.
Çoklu regresyon modelinde


Sabit varyans varsayımının sağlanmadığını, ve değişen varyansın formunun aşağıdaki gibi olduğunu düşünelim:


Burada h(x) > 0 x’lerin herhangi bir fonksiyonudur. h(x)’in bilindiğini düşünelim.
Orijinal modeli h(x) fonksiyonunu kullanarak hata terimi sabit varyanslı olacak şekilde dönüştürebiliriz. Bu dönüştürülmüş modeli OLS ile tahmin edebiliriz. Buna WLS tahmini denir. Modelimizi ile çarparak dönüştürüyoruz:


Dönüştürülmüş modeli aşağıdaki gibi yazabiliriz:

Bu modelde hata varyansını hesaplarsak:

Varsayımların sağlanmasında değişkenlerin dönüştürülmesi yaklaşımı yaygın bir şekilde kullanılmaktadır. Değişkenlere dönüşüm
uygulamanın doğrusallaştırmak, normalleştirmek
ve durağanlaştırmak (sabit varyans) gibi üç temel amacı vardır. Aşağıda en yaygın kullanılan
dönüşümler verilmiştir.
Dönüşümler:
1. Logaritmik Dönüşüm
(Y*=LnY)
2. Karekök Dönüşümü
(Y*=Y^0.5)
3. Hiperbolik Dönüşüm
(Y*=1/Y)
4. Kare Dönüşümü
(Y*=Y^2)
5. Arcsin Dönüşümü
(Y*=ArcsinY^0.5=Sin-1.Y^0.5)
BİZİM ANALİZİMİZ
Bütün değişkenlerin karekök(comp) değişkenine bölünmesi sonucu oluşan model
Regression Analysis: 1/y^((0,46)) versus weight/(sqrt; cıtympg/(sqr; ...
The regression equation is
1/y^((0,46))/(sqrt(comp)) = 0,0108 - 0,000002 weight/(sqrt(comp))
+ 0,000086 cıtympg/(sqrt(comp))
+ 0,000001 disp/(sqrt(comp))
- 0,00188 comp/(sqrt(comp))
- 0,000008 hp/(sqrt(comp))
- 0,000012 torque/(sqrt(comp))
Predictor Coef SE Coef T P VIF
Constant 0,010795 0,001208 8,94 0,000
weight/(sqrt(comp)) -0,00000152 0,00000028 -5,45 0,000 4,2
cıtympg/(sqrt(comp)) 0,00008574 0,00003308 2,59 0,011 4,7
disp/(sqrt(comp)) 0,00000143 0,00000023 6,30 0,000 10,1
comp/(sqrt(comp)) -0,0018794 0,0003142 -5,98 0,000 1,3
hp/(sqrt(comp)) -0,00000791 0,00000184 -4,29 0,000 11,4
torque/(sqrt(comp)) -0,00001177 0,00000321 -3,67 0,000 32,4

S = 0,000295836 R-Sq = 89,6% R-Sq(adj) = 89,2%


Analysis of Variance
Source DF SS MS F P
Regression 6 0,000099043 0,000016507 188,61 0,000
Residual Error 131 0,000011465 0,000000088
Total 137 0,000110508
No replicates.
Cannot do pure error test.
Source DF Seq SS
weight/(sqrt(comp)) 1 0,000062901
cıtympg/(sqrt(comp)) 1 0,000016182
disp/(sqrt(comp)) 1 0,000000304
comp/(sqrt(comp)) 1 0,000004999
hp/(sqrt(comp)) 1 0,000013477
torque/(sqrt(comp)) 1 0,000001181




Unusual Observations

Obs weight/(sqrt(comp)) 1/y^((0,46))/(sqrt(comp)) Fit SE Fit
3 960 0,001694 0,002457 0,000078
6 1350 0,001542 0,001291 0,000160
10 1739 0,001239 0,000719 0,000154
30 615 0,005012 0,005034 0,000129
39 794 0,004923 0,004079 0,000042
46 1071 0,001945 0,002069 0,000180
47 992 0,001375 0,001875 0,000136
59 664 0,004835 0,004228 0,000061
68 804 0,004691 0,003995 0,000052
69 1131 0,000988 0,000658 0,000135
77 1076 0,001903 0,002363 0,000139
78 746 0,003392 0,003991 0,000052
88 1023 0,002558 0,003193 0,000066
110 1124 0,003183 0,003969 0,000190
125 609 0,004806 0,004905 0,000116


Obs Residual St Resid
3 -0,000763 -2,67 R
6 0,000251 1,01 X
10 0,000520 2,06 R X
30 -0,000022 -0,08 X
39 0,000844 2,88 R
46 -0,000124 -0,53 X
47 -0,000500 -1,90 X
59 0,000607 2,10 R
68 0,000696 2,39 R
69 0,000329 1,25 X
77 -0,000461 -1,77 X
78 -0,000599 -2,06 R
88 -0,000635 -2,20 R
110 -0,000787 -3,46 R X
125 -0,000098 -0,36 X

Bütün değişkenlerin karekök(comp) değişkenine bölünmesi ve (torque/(sqrt(comp)))**2 modele eklenmesi sonucu oluşan model
Regression Analysis: 1/y^((0,46)) versus weight/(sqrt; cıtympg/(sqr; ...
The regression equation is
1/y^((0,46))/(sqrt(comp)) = 0,0109 - 0,000001 weight/(sqrt(comp))
+ 0,000053 cıtympg/(sqrt(comp))
+ 0,000001 disp/(sqrt(comp))
- 0,00169 comp/(sqrt(comp))
- 0,000008 hp/(sqrt(comp))
- 0,000023 torque/(sqrt(comp))
+ 0,000000 (torque/(sqrt(comp)))**2
Predictor Coef SE Coef T P VIF
Constant 0,010860 0,001173 9,26 0,000
weight/(sqrt(comp)) -0,00000115 0,00000030 -3,89 0,000 5,1
cıtympg/(sqrt(comp)) 0,00005291 0,00003391 1,56 0,021 5,3
disp/(sqrt(comp)) 0,00000144 0,00000022 6,55 0,000 10,1
comp/(sqrt(comp)) -0,0016929 0,0003112 -5,44 0,000 1,4
hp/(sqrt(comp)) -0,00000827 0,00000179 -4,61 0,000 11,4
torque/(sqrt(comp)) -0,00002296 0,00000485 -4,74 0,000 78,6
(torque/(sqrt(comp)))**2 0,00000003 0,00000001 3,01 0,003 32,5

S = 0,000287148 R-Sq = 90,3% R-Sq(adj) = 89,8%


Analysis of Variance
Source DF SS MS F P
Regression 7 0,000099789 0,000014256 172,89 0,000
Residual Error 130 0,000010719 0,000000082
Total 137 0,000110508
No replicates.
Cannot do pure error test.
Source DF Seq SS
weight/(sqrt(comp)) 1 0,000062901
cıtympg/(sqrt(comp)) 1 0,000016182
disp/(sqrt(comp)) 1 0,000000304
comp/(sqrt(comp)) 1 0,000004999
hp/(sqrt(comp)) 1 0,000013477
torque/(sqrt(comp)) 1 0,000001181
(torque/(sqrt(comp)))**2 1 0,000000746
Unusual Observations
Obs weight/(sqrt(comp)) 1/y^((0,46))/(sqrt(comp)) Fit SE Fit
3 960 0,001694 0,002371 0,000081
6 1350 0,001542 0,001302 0,000155
10 1739 0,001239 0,001021 0,000180
30 615 0,005012 0,005121 0,000128
39 794 0,004923 0,004163 0,000050
46 1071 0,001945 0,002390 0,000205
47 992 0,001375 0,001681 0,000147
68 804 0,004691 0,004093 0,000060
69 1131 0,000988 0,000841 0,000144
77 1076 0,001903 0,002182 0,000148
78 746 0,003392 0,004011 0,000051
110 1124 0,003183 0,003930 0,000184
Obs Residual St Resid
3 -0,000678 -2,46 R
6 0,000240 0,99 X
10 0,000218 0,98 X
30 -0,000110 -0,43 X
39 0,000760 2,69 R
46 -0,000446 -2,21 R X
47 -0,000306 -1,24 X
68 0,000598 2,13 R
69 0,000147 0,59 X
77 -0,000279 -1,14 X
78 -0,000619 -2,19 R
110 -0,000748 -3,40 R X
R denotes an observation with a
large standardized residual.
X denotes an observation whose
X value gives it large influence.

No evidence of lack of fit (P >= 0,1).

Yapılan bu işlemler sonucu oluşan
son model yukarıdadır.

özetle...
değişen varyans....
NEDİR?
Hata terimlerinin varyansının bütün örneklem için sabit olmaması anlamına gelir.
HANGİ VARSAYIM İHLAL EDİLİR?
ORTAYA ÇIKARAN TESTLER
Grafik Yöntemi
Park Testi
Glejser Testi
Spearman Testi
Goldfeld - Quandt Testi
Breusch - Pagan - Godfrey Testi
(BPG)
White Testi
ARCH (LM) ve GARCH Testleri
DÜZELTİCİ ÖNLEMLER
Varyans biliniyorsa;



Varyans bilinmiyorsa;
Ağırlıklı En Küçük Kareler yöntemi uygulanarak (AEKK)

Düzeltmeli White varyansları kullanılarak
Verilerin dönüştürülmesi ile
Full transcript