Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

KÜMELEME ANALIZI

No description
by

Özge Gürcü

on 5 June 2014

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of KÜMELEME ANALIZI

Start
KÜMELEME ANALIZI NEDIR ?
Kümeleme analizi, birey veya nesneleri benzerliklerine göre kümelere veya gruplara ayırmak için kullanılan bir çok değişkenli istatistik analiz tekniğidir. Kümeleme analizi sonucu oluşturulan kümeler içinde aynı küme içinde yer alan birimler birbirlerine diğer kümenin içinde yer alan birimlerden daha çok benzeşirler
KÜMELEME ANALIZININ AMACI ?
Kümeleme analizi, temel amacı birey yada nesneleri sahip oldukları karakteristik özellikleri baz alarak gruplamak olan çok değişkenli teknikler grubudur. Kümeleme analizi, nesneleri küme içerisinde çok benzer biçimde, kümeler arasında farklı olacak biçimde kümeler.
KÜMELEME ANALIZININ KULLANIM ALANLARI
Kümeleme teknikleri, araştırma problemlerinde geniş bir alanda uygulanır (Hartigan, 1975). Tıpta hastalıkları, hastalık tedavilerini sınıflandırmada kümeleme çok kullanışlı bir yöntemdir. Böylelikle “herhangi bir hastalık hangi grupta, o grubun belirtileri nelerdir ve tedavi yöntemleri nelerdir?” bunları bilmek tedavi sürecinde fayda sağlar. Tıbbın psikolojiyle ortak alanı olan psikiyatri dalında, paranoya, şizofren, manik depresif gibi önemli hastalıkların belirtilerinin doğru kümelerde teşhis edilmesi, doğru tedavi için gereklidir. Sosyal bilimlerde de kümele analizi teknikleri uygulanmaktadır. Örneğin suç istatistiklerinde suçları sınıflandırmada kullanılabilir. Kümeleme analizinin en son uygulama alanı ise veri madenciliğidir, veri madenciliğinde büyük veri yığınlarından kurtulup özet veriler elde etmek hedeflenir. Bu aşamada kümeleme analizi kullanılır.
KÜMELEME ANALIZI BENZERLIK VE UZAKLIK ÖLCÜLERI
Bir veri setinde yer alan birimlerin kümelenmesi işlemi bu birimlerin birbirleriyle olan benzerlikleri ya da birbirlerine olan uzaklıkları kullanılarak gerçekleştirilmektedir. Değişkenlerin kesikli ya da sürekli olmalarına ya da değişkenlerin nominal, ordinal, aralık ya da oransal ölçekte olmalarına göre hangi uzaklık ölçüsünün ya da hangi benzerlik ölçüsünün kullanılacağına karar verilir.
ARALIK ÖLCEKLI VE ORANSAL ÖLCEKLI DEGISKENLER ICIN UZAKLIK ÖLCÜLERI
KÜMELEME ANALIZI


Öklidyen Uzaklık Ölçüsü
Öklid uzaklığı en sık kullanılan uzaklık ölçüsüdür. Basit olarak çok boyutlu uzayda geometrik uzaklıktır ve ;



ile hesaplanır. Karesel Öklid uzaklığı ise ;

• Pearson Uzaklık Ölçüsü
Pearson uzaklık ölçüsü kullanılarak iki birim arasındaki uzaklık ;
şeklinde hesaplanır. . Bu formülde kullanılan Sp, uzaklığın hesaplandığı değişkene ait varyanstır. Bununla birlikte farklı gruplar hakkında önceden bilgi sahibi olunmadığı için, uzaklık hesaplanmasında S değerinin kullanılması doğru olmaz. Bu nedenle Pearson uzaklık ölçüsü yerine genellikle Öklidyen uzaklık ölçüsü tercih edilir.
• Manhattan Uzaklık Ölçüsü
Manhattan(City-Block) uzaklık ölçüsü, birimler arasındaki mutlak uzaklıkların toplamını alarak
hesaplayan bir uzaklık ölçüsüdür ve

formülüyle hesaplanır.
• Minkowski Uzaklık Ölçüsü
Minkowski uzaklık ölçüsü genel bir formüldür. Bu uzaklık ölçüsü kullanılarak iki birim arasındaki uzaklık ;
şeklinde hesaplanır.
• Mahalanobis Uzaklık Ölçüsü

şeklinde hesaplanır.
Doğrudan birleştirme yapan, Mahalonobis Uzaklık ölçüsü iki değişken arasındaki kovaryans veya korelasyonu göz önüne alır ve değişkenler arasındaki uzaklık ölçüsü hesaplanırken
formülünden yararlanılır.
Kümeleme analizi yöntemleri
1) Hiyerarşik kümeleme (aşamalı ) yöntemleri
Gruplayıcı hiyerarşik yöntem

2) Hiyerarşik olmayan yöntemler
-tek baglantı methodu
-tam baglantı methodu
-ortalama baglantı methodu
-merkezi methodu
-varyans(ward's) methodu
Bölücü hiyerarşik yöntem
-K-ortalama methodu
-En çok olabilirlik methodu
Teşekkürler..
Degişkenlerin Standardizasyonu ve Degişkenlerin Dönüştürülmesi
Veri matrisinde yer alan degişkenlerin ortalamaları ve varyansları birbirilerinden oldukça farklı oldugu durumlarda birimler arası uzaklık hesaplanırken, ortalaması daha büyük ve/veya varyansı daha büyük olan degişkenler, hesaplanılan uzaklık degerine daha büyük etki yapacaktır. Bu durumda kümeler oluşturulurken sistematik bir yanlış yapılmış olacaktır. Ayrıca degişkenlerde yer alan aşırı degerlerde uzaklık degerine etki eden başka bir faktördür. Aşırı degerler kümeleme analizi sonucunda ayrı kümeler olarak karşımıza çıkabilir. Bu gibi durumlar söz konusu oldugunda yapılacak işlem, degişkenlerin dönüştürülmesidir
1) Z skorlarına dönüştürme
Bu yöntem, oransal ve aralık ölçekli veriler söz konusu olduğunda verilerin çok degişkenli normal dağılım gösterdigi varsayımıyla verilere uygulanan bir yöntemdir.
2)Ortalama 1 olacak biçimde indirgeme
Oluşturulacak olan indirgenmiş degişkenin ortalamasının pozitif ve 1 olması gerektiginde uygulanan bir yöntemdir
3)Standart sapma 1 olacak şekilde indirgeme
Eger indirgenmiş degişkenin standart sapmasının 1 olması isteniyorsa, bu yöntem tercih edilir.
1) Hiyerarşik kümeleme (aşamalı ) yöntemleri:
Yöntem, aşama sıralı kümeleme yöntemi olarak da bilinir. Gruplayıcı ve bölücü olmak üzere iki hiyerarsik yöntem mevcuttur.

a) Gruplayıcı (agglometrive):
Gruplayıcı hiyerarsik yöntemde her birim veya her gözlem baslangıçta bir küme olarak kabul edilir. Daha sonra en yakın iki küme (veya gözlem) yeni bir kümede toplanarak birlestirilir. Böylece her adımda küme sayısı bir azaltılır. Bu süreç dendogram veya agaç grafigi adı verilen sekille gösterilebilir.




b) Bölücü (divistive):
Bölücü hiyerarsik yöntemde ise süreç gruplayıcı hiyerarsik yöntemin tam tersidir. Bu yöntemde tüm gözlemlerden olusan büyük bir küme ile ise baslanır. Benzer olmayan gözlemler ayıklanarak daha küçük kümeler olusturulur. Her gözlem tek basına küme olusturana kadar isleme devam edilir.

Tek Bağlantı Yöntemi
:En kısa mesafe esasına dayanır. uzaklıklar matrisini kullanarak birbirine en yakın gözlemleri birlestirmeye dayanmaktadır. Bu teknikte önce birbirine en yakın iki gözlem bir kümeye yerlestirilir Daha sonra diger en yakın uzaklık tespit edilerek ilk olusturulan kümeye bu gözlem eklenir veya iki gözlemden olusan yeni bir küme olusturulur. Bu islem tüm gözlemlerin bir kümeye yerlestirilmesine kadar devam eder.
Tam Bağlantı Yöntemi:
Tek bağlantı yöntemine benzer tek farkı en uzak iki gözlemden başlamasıdır
Ortalama Bağlantı Yöntemi:
Aşırı uç gözlemlerden başlamaz. Bir kümenin ortasına düşen gözlemi esas alır
Merkezi Yöntem:
Bir kümeyi oluşturan gözlemlerin ortalamasını esas alır. Eğer bir kümede sadece bir gözlem varsaonun değeri merkez kabul edilir
Varyans (Ward’s) Yöntemi:
Ward yönteminde, grup baglantılarından çok grup içi kareler toplamı islenmektedir Yönteme her birinin içinde tek bir birim bulunan n tane küme ile baslanır. Yöntemin ilk basamagında her gözlem bir küme oldugundan Hata Kareler Toplamı sıfır olmaktadır Her asamada iki alt küme bir sonraki seviyeyi olusturmak için birlestirilir.

UYGULAMA 1
2) Hiyerarşik olmayan kümeleme (aşamalı olmayan) yöntemleri
Bazı durumlarda küme sayısı önceden bellidir ve arastırmacı bu küme sayısına göre çözümler üretmek durumundadır

Hiyerarsik olmayan kümeleme yöntemleri baslıgı altında bir çok teknikten söz edilebilir ancak bunlardan en sık kullanılan iki tanesi k-ortalama yöntemi ve en çok olabilirlik yöntemidir,
1) k-ortalama yöntemi:
k − ortalama teknigi, gözlemleri kümelerin önceden belirlenen sayısına göre gruplandırmakla isleme baslar. Böylece her biri tek gözlemden olusan k tane küme ile isleme baslanır ve her bir yeni gözlem en yakınortalamalı gruba eklenir. Gruba yeni bir gözlem eklendikten sonra küme ortalaması yeniden hesaplanır. Bu süreç tüm gözlemler gruplara atanıncaya kadar devam eder. Tüm gözlemler gruplara atandıktan sonra atandıkları küme ortalamasından daha yakın küme ortalaması varsa, gözlemlerin yerleri degistirilmektedir
2) En Çok Olabilirlik Yöntemi:
Diskriminant analizinde de kullanılan en çok olabilirlik yönteminde her bir gözlem en büyük olabilirlik degerini verecek biçimde daha önceden belirlenen kümelere atanır. Kuramsal dayanagı güçlü olmakla birlikte en çok olabilirlik yöntemi yaygın olarak kullanılmamaktadır
UYGULAMA 2
Veri setimizi
File -> Open -> Data
adımları uygulanarak spss paket programına atıyoruz.
Hiyerarşik kümeleme yöntemi uygulamak için;
Analyze -> Classify -> Hierarchial Cluster
adımları takip edilir.
Variable kısmına bağımlı değişkenlerimizi Label Cases by kısmına bağımsız değişkenlerimizi yerleştiririz.
Statistics
kısmından isteğe bağlı olarak Range of solutions kısmından aralık seçilebilir.
Plots
kısmından Dendrogram seçeneği işaretlenir.
Method kutucuğundan Cluster Method : Ward's method seçilir. Interval kısmındanda Squared Euclidean distance işaretlenir.
Ok seceneği işaretlenir.
Adımlar ;
Çıktılar ;
Case Processing Summary tablosu bize gözlem sayısı ve kayıp değişkenler hakkında bilgi verir. Verimizde gözlem sayısı 62'dir ve kayıp veri bulunmamaktadır.
Dendogramın tamamı çok büyük olduğu için gözükmemektedir. Şekilde 34 numaraları hayvana kadar olan kısım bir küme 19-13 numaraları hayvanlar bir küme ,14-4 numaraları hayvanlar bir kümedir. Kümeleri dahada küçültmek istersek 34'e kadar olan hayvanları ve 19-13 numaralı arası hayvanlardam bir küme oluştururuz. Küme sayısı isteğe göre artılıp azaltılabilir.
Veri setimiz SPSS paket programına atıldı. Değişkenlerimiz

hiyerarşik olmayan kümeleme analizi yöntemi için uygulanan adımlar ;
Analyze -> Classify -> K-Means Cluster adımları uygulanır.
Variable kısmına bağımlı değişkenlerimizi attık
Iterate bölümü seçilerek kümeleme işlemini kaç iterasyonda tamamladığını belirtir.
Adımlar ;
çıktılar;
Bu tabloda gözlemlerimizin
hangi kümelere atandıkları
gösterilmektedir Coeefficients ise aralarındaki uzaklığı göstermektedir örneğin 37 ve 48 birinci kümeyi oluşturmaktadır ve aralarında 5,973 lük bir uzaklık vardır .
Küme üyeliği ve küme merkezlerine olan uzaklıklarını gösterir
2 iterasyonda kümelemenin
tamamlandığı görülmektedir.
ilk küme merkezlerini
göstermektedir birbirleri arasındaki uzaklıklara bakar
Hangi gözlemin hangi kümeye
ait olduğunu gösterir ve Distance bölümünde küme merkezlerine olan uzaklıkları verilir.
Son küme merkezlerini gösterir
Kümeler arası mesafeyi gösterir
DEĞISKENLER;

-
Vücut ağırlığı
-beyin ağırlığı
-yavaş dalga
-parodoksal
-toplam uyku
-max.ömür
-gebelik süresi
-avlanma indeksi
Amacımız bu değişkenlere göre hayvanlar karşılaştırarak benzer türleri saptamak
BYAÖO: 5 yaş altı ölüm oranı
DYB:  Doğuşta yaşam beklentisi
YOYO: Yetişkinlerde okur yazar oranı
KO:  Kentsel nüfus oranı
TDH: Toplam doğurganlık hızı
OKO:  İlkokula kayıt oranı

DEGISKENLER;
Amacımız bu değişkenlere göre
ülkeleri karşılaştırarak benzer
gelişmişteki ülkeleri saptamak
Küme üyelikleri ilk küme merkezleri ve anaova tablosu için seçilir .
Anova tablosu;
Full transcript