Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

Jak jsem soutěžil na Kaggle.com

Postřehy z Greek Media Monitoring Multilabel Classification

Jan Švec

NTIS - Nové Technologie pro Informační Společnost

Fakulta Aplikovaných Věd

Západočeská Univerzita v Plzni

<honzas@ntis.zcu.cz> @honza_svec

public

leaderboard

private

leaderboard

Greek Media Monitoring Multilabel Classification (WISE 2014)

O mě...

Semi-supervised training

Konkurenční řešení

Multi-label classification of printed media articles to topics

Zpracování a porozumění řeči

Ensemble of classifiers

Hlasové dialogové systémy

Machine learning

Prahování pro multi-label klasifikaci

At least 1 label assigned (even if posterior prob << 0.5)

Uses test data to better model distribution of feature vectors

(1) Train supervised model

(2) Predict labels on test data

(3) Use them as additional training data

(4) Update test data labels after each IDO iteration

Skenované články z řeckých médií

65k trénovacích dokumentů, 35kdokumentů ke klasifikaci

300k příznaků (normalizované TF-IDF)

203 témat (multi-label klasifikace, minimálně 1 téma)

70:30 rozdělení test dat na public/private

Mean F1 kritérium

Komunikace člověk-stroj

Využití časového uspořádání trénovacích dat

Výzkum & vývoj

Jak jsem začal

Label classifier

Training the WISE model

Kaggle.com

Alexander D’yakonov (1. místo)

... aneb když vám kolega pošle odkaz na Jabber

Ensemble 10 klasifikátorů

"Platforma hostující soutěže v Machine Learning"

300k columns

První submission – 5. místo na public leaderboardu!

Model založený na SVM, obdoba modelu pro porozumění řeči

kNN, ridge regression, logistic regression

[0 ... 1]

{0 or 1}

Diskuze

Zdroj dat

203 columns

J. Švec: Diskriminativní model pro porozumění mluvené řeči, Disertační práce, 2013

http://www.kky.zcu.cz/cs/publications/1/JanSvec_2014_Discriminativemodel.pdf

Tutoriály

Jobs

Binary classifier for each label j=1...M (M=203)

trained using stochastic gradient descent (SGDClassifier)

mean F1 +1.2% (wrt liblinear SVM)

modified Huber loss and elasticnet regularization

allows to predict posterior probabilities

M regularization metaparameters alpha_j

iterative direct optimization

Feature engineering nepomáhá

Kaggle Scripts

35k rows

Komunita

Prahování g_j / max_i{g_i} > p

Blog

ML challenge

Průběh soutěže z pohledu první osoby

Iterative direct optimization

Results

Antti Puurula, Jesse Read (2. místo)

Competition Details >> Get the Data >> Make a submission

Denní rytmus: Modeluj - trénuj - submituj

Ensemble 200 klasifikátorů

train.csv

predict.csv

Popis soutěže

Vaši soupeři nespí, tak proč byste měli vy?

binary relevance, clsf. chain, label powerset

Optimization of alpha_j to maximize CV mean F1

training starts with the most frequent label

influenced by the decision strategy (!)

alpha_j -- logarithmic seq. 10^-5.6, 10^-5.5, ... 10^-4.4

8-fold cross-validation

several iterations (incremental improvements)

test.csv

Kritérium

Leaderboard

Dovolená není překážkou!

Inverze TF-IDF zpět na county

Pravidla

Titanic: Machine Learning from Disaster

I manželka může pochopit, co je Mean F1!

word-pairs, LDA příznaky

Predict survival on the Titanic using Excel, Python, R & Random Forests

Výhra

https://www.kaggle.com/inversion/meta-kaggle/exploring-submission-timing/files

Prahování p_j > 0.5

https://www.kaggle.com/c/titanic

Co jsem si odnesl...

Stanislav Semenov (4. místo)

Prediction strategy

Overfitting ?

Leaderboard

Výborná zkušenost i zážitek ze soutěžení...

Linear SVM, L1 regularization

Public leaderboard

Jednoduchý a elegantní multi-label model

Všechna data v test.csv

50:50

Regresní modely pro určení optimálního prahu

Private leaderboard

Souhrnný článek na konferenci WISE 2014

Thresholding of posteriors to provide 0/1 decision

Based on posterior probabilities of labels (label clsf.)

select all labels with prob. > 0.5

add other labels if

prob. > threshold * prob. of the last label above 0.5

Posuny v pořadí při vyhodnocení na private části!

G. Tsoumakas, A. Papadopoulos, W. Qian, S. Vologiannidis, A. D’yakonov, A. Puurula, J. Read, J. Švec, S. Semenov: WISE 2014 Challenge: Multi-label Classification of Print Media Articles to Topics https://dx.doi.org/10.1007/978-3-319-11746-1_40

Možno více finálních modelů

Rozumět kritériu (Acc, F1, ROC AUC) – klíč k úspěchu!

Post-conference proceedings

per-document prahování

predikce horní a dolní meze prahu

příznaky: (seřazené) výstupní psti, rozdíly mezi top 10 pstmi ...

J. Švec: Semi-supervised Learning Algorithm for Binary Relevance Multi-label Classification

https://dx.doi.org/10.1007/978-3-319-20370-6_1

Blum, A., & Hardt, M. (2015). The Ladder: A Reliable Leaderboard for Machine Learning Competitions. In International Conference on Machine Learning 2015.

http://arxiv.org/abs/1502.04585

Q=2

65k rows

Model development

  • label classifier
  • binary classifier with probabilistic output
  • prediction strategy
  • thresholding of posterior probabilities
  • iterative direct optimization (IDO)
  • direct maximization of mean F1
  • semi-supervised training
  • utilizes unlabeled test data
Learn more about creating dynamic, engaging presentations with Prezi