Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

MACHINE LEARNING

No description
by

Tuğba Büyükkaraca

on 30 May 2017

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of MACHINE LEARNING

Twitter' da Yazar Kimliği Analizi
Sistem Nasıl Çalışır ?
DATA COLLECTION
MACHINE LEARNING
Author Identification on Twitter

Nezihe Karaman
Leyla Büyükesen
Tuğba Nur Büyükkaraca

Tablo 1 Data Sources
Temel Yöntem
Dell’in çalışanlarına twitter hesapları ile istekte bulunuldu ve birden fazla twitter hesabını gösteren cümleleri aramak için google kullanıldı.

Google plus arşivlerine de bu amaç doğrultusunda ayrıca incelenmiştir.

Bu çalışmanın amacı

Gerçek kimliğini saklayan bir kullanıcının kimliğinin yalnızca dilsel stilometri kullanılarak bulunup bulunmayacağının araştırılmasıdır.
Yaklaşık 100.000 blogtan oluşan bir alana uygulandığında sınıflandırmacının özelliklerine bakarak kimlik tanıma çalışması yapılıyor.

Blog verileri üzerinde en iyi sonucu veren özellikleri sınıflandırma ve normalleştirme yöntemlerini kullanarak twittter verisine uyarlayıp sonuçları ölçülüyor.

Veri setimizdeki kümede aynı kullanıcı tarafından en az bir hesap tarafından yazılmış tweetleri içeriyor.

Öncelikle discovertext.com adlı bir web sitesi kullanılarak istenilen hesaplar takip edildi ve gerekli veriler toplandı.

Ancak aranılan veriler yeterli olmadı. Sebebi retweetlerin ve tarihsel verilerin olmamasıdır.

Bu yöntem sonucunda hesap çifti grubu oluşturuldu.

Yanlızca bağlantı içeren tweetler kaldırıldıktan sonra 27 farklı kişiden 58 hesap data collection oluşturuldu. Bu data collection 70/30 oranında ölçeklendirilerek çarpaz doğrulama gerçekleştirildi.

Hata oranı ölçülerek çift yazarlık simüle edildi.

Foursquare gibi uygulamalar tarafından üretilen tweetler
sorunlar data collection oluşturulmasında sorunlar ortaya çıkardı.

Tüm bu sorunların giderilmesi sonucunda 844 tweet koleksiyonu oluşturuldu.

Özellikler
Bu çalışmada seçtiğimiz özellikler Narayanan, Writeprints ve İrlanda’dan esinlenmiş olup genellikle Narayanan’ın makalesinde belirtilen özelliklerden oluşmuş bir alt kümedir.

Bu özellikler, konu yerine tweetin stiline odaklanarak ek olan sözcükleri görmezden geliyor ve büyük TF.IDF skorlarına sahip sözcüklere odaklanıyor.

Bu özelliklerin 393’ünü Ruby betiği kullanılarak ayıklanıyor ve MATLAB’ta kullanılan klasik programlar tarafından algılanması için CVS’ye depolanıyor.

Böylece ölçeklendirme ve algoritmik karmaşıklık konusunda zorlukla karşılaşılmıyor.

Bu özelliklerden hangisinin sınıflandırma doğruluğu üzerinde en fazla etkiye sahip olduğunu bulmak için Narayanan tarafından kullanılan bilgi kazanımı formülünden yararlanılmıştır
Narayanan ile aynı bilgi kazanımı metriğini kullanarak blog yazarlığını tespit etmede etkili özellikleri, Twitter yazarlıklarını algılamadaki özellikleriyle karşılaştırabiliriz.
Bu listeyi, bloglar için Narayanan’ın ilk 10 özellikleri ile karşılaştırdığımızda, mesajın uzunluğu ve büyük harf kullanım stili ayırt edici özelliklerdir.

Ayrıca bireysel karakterler blog yayınları ve tweetler için farklıdır. Narayanan için o, a, t, e önemliyken bloglar için kesme işaretleri ve virgüller önemlidir.


‘http://’ içeren karakterler listede üst sıradadır.
ASCII olmayan karakterlerin sıklıkla kullanılması ilginçtir.

Bazı Twitter kullanıcıları tweetlerinde
unicode içerir. Bu unicode karakterler çoğunlukla ingilizce olmayan kelimeler
yerine kalpler ve ifadeler gibi özel karakterlerdir.

Son olarak, ‘@’ sıklığı yüksek sıralamaya sahip olup ancak ilk onda değildir.

Bu karakter Twitter’da başka bir Twitter yayınına yapılan referansı belirtmek için kullanılır.

Narayanan en iyi sonuçları NN ve RLSC’nin kombinasyonu ile bildirmiştir. Biz bu sınıflandırıcıları uyguladık ve onları verilere karşı çalıştırdık.

K-NN algoritması, en temel örnek tabanlı
öğrenme algoritmaları arasındadır. Örnek
tabanlı öğrenme algoritmalarında, öğrenme
işlemi eğitim setinde tutulan verilere dayalı
olarak gerçekleştirilmektedir.
Yeni karşılaşılan bir örnek, eğitim setinde yer alan örnekler ile arasındaki benzerliğe göre
sınıflandırılmaktadır
Başlangıçta NN'ye odaklanarak Narayanan tarafından tanımlanan varyasyonu normalleştirme prosedürüyle birlikte uyguluyoruz.

Twitter'daki kullanıcı sayısını göz önünde bulundurarak çok pahalı olacak olan tüm veri noktalarını hafızasında tutmak yerine, her bir Twitter hesabı için bir centroid hesaplıyoruz.

Bunu yapmak için tüm kullanıcılardan ayıklanan tweetleri okuyup satır ve sütunları normalleştiriyoruz.

İlk olarak, her sütun değeri bu sütunda sıfır olmayan değerlerin ortalamasına göre normalleştirilir.
Ardından, her satır değeri o satırın normuna bölünür.

Tahmin zamanında, test akışındaki her bir tweet'in
çıkarılmış özelliklerini okuyoruz

Tweet'lerin her biri için ve eğitimde hesaplanan her centroid için Öklid uzaklığı ölçülür.

Sonra mesafelerin toplamı alınır.

Her bir centroid için tüm tweet'leri bulup centroid'ler, test akışındaki tweet'e ortalama yakınlıklarına göre sıralanır.

Aynı yazarın hesabının, sıralamanın üst sıralarda yer alıp almayacağını da içeren sıralamada en üst N% oranında göründüğünü sorduk

Aynı hesaptaki tweet'lerde çapraz doğrulama kullanarak 70 / 30'u ölçeklendirilmesi kullanarak genelleme hatasını da ölçmekteyiz.

Eğitim hatası ve çapraz doğrulama genelleme hatasının hesaplanmasında, doğru hesap ilk sıradda dizilmiş listede göründüyse, tahmini doğru olarak sayarız.


Eğitim ve çapraz doğrulamalara göre, NN algoritması ile % 0.61 eğitim hatası ve % 2.5 genelleme hatası getiriyor.

Örnek boyutu küçük olmasına rağmen, algoritma amaçlanan kullanım durumuna uygulandığında doğruluğu ölçmek için 58 etiketli hesapları kullanılır.
Çifte hesaplardan biri verildiğinde, NN sınıflandırıcısı diğer hesabın % 29'u ilk
sırada yer alır ve % 71'lik bir hata oranı oluşur.
Ve zamanın% 70'inde sıralamanın en iyi% 10'unda görünürler.
NN algoritması nispeten hızlıdır, çünkü her test noktasının, her eğitim sınıfı için bir ağırlık noktası ile kıyaslamanması yeterlidir.
Bu testler bağımsız ve kolay olduğundan, MATLAB'ın paralel hesaplama yeteneklerini kullanabilir ve tüm veri setini birkaç dakika içinde işleyebilir.
RLSC algortimasını orijinal kapalı form çözümüyle başlayarak uyguluyoruz.
500.000 tweet'lik eğitim seti göz önüne alındığında tasarım matrisi X ve çok boylu Y matrisi {-1,+1} 844 adet sınıflandırıcı vektör ile algoritmanın tamamlanması için yaklaşık 12 saat gerektirir.
Tek bir tweet için her bir doğrusal sınıflandırıcı yöntemin maksimum değerini belirleyerek, bu sınıflandırıcıyı birine, diğerini sıfıra ayarlayarak, her tweet'i pozitif veya negatif olarak sınıflandırıyoruz.
Benzer şekilde çalışan OVA ile sonuçlanan hata eğitim seti, NN sınıflandırıcısına göre %20-30 daha kötü olduğu gözlendi.
Veri setimizdeki her etiket için, RLSC genel olarak yaklaşık yarım milyon negatif örnekle karşılaştırıldığında bin olumlu örnek vardır.
Pozitif ve negatif örneklerin oranını dengelemek için kapalı form çözümü izlendi.


Sınıflandırıcı j'deki olumlu bir örneğe karşılık gelen sıralardaki negatif pozitif örneklere oranına eşittir ve diğer tüm diyagonal değerler için 1'dir.
Bununla birlikte, bu sonuçlarla eğitim hatası % 1.1'e ve genelleme hatasını % 4.7'ye düşürülür.

En önemlisi, algoritma bilinen Twitter çift hesaplarında NN'den önemli ölçüde daha iyi performans gösterir ve bunların% 41'ini doğru şekilde sınıflandırır.


RLSC'yi NN ile karşılaştırdığımızda, RLSC'nin her eşiğinde NN'den daha iyi performans gösterdiğini görüyoruz.

Sınıflandırıcıların her ikisi de çapraz doğrulamada mükemmel doğruluk sergiler ve test akışının aynı yazar tarafından farklı bir Twitter hesabından geldiği durumunda oldukça iyi sonuç verir.

Stilometrik analizin Twitter'dan blog verisinde iyi performans gösterdiğine karar verebiliriz.
SONUÇ
Stilometri özelliklerinin araştırılmasının genişletilmesi
Bilinen hesap çiftlerinin daha geniş bir setinin toplanması
RLSC algoritmasının hız ve bellek kullanımını iyileştirmek için eşlenik iniş, dinamik programlama veya stokastik yöntemlerinin geliştirilmesi
RLSC ve NN algoritmalarının daha çok sayıdaki hesaplara uygulanması
Şüphe uyandıran dil ve uygulama verilerinin kaldırılması.

GELECEK HEDEFLER
Full transcript