Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Jak jsem soutěžil na Kaggle.com

Postřehy z Greek Media Monitoring Multilabel Classification
by

Jan Švec

on 22 October 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Jak jsem soutěžil na Kaggle.com


Jak jsem soutěžil na Kaggle.com

Postřehy z Greek Media Monitoring Multilabel Classification
At least 1 label assigned (even if posterior prob << 0.5)

Uses test data to better model distribution of feature vectors

(1) Train supervised model
(2) Predict labels on test data
(3) Use them as additional training data
(4) Update test data labels after each IDO iteration
Semi-supervised training
První submission – 5. místo na public leaderboardu!
Model založený na SVM, obdoba modelu pro porozumění řeči
Jak jsem začal
Denní rytmus: Modeluj - trénuj - submituj
Průběh soutěže z pohledu první osoby
Binary classifier for each label j=1...M (M=203)
trained using stochastic gradient descent (SGDClassifier)
mean F1 +1.2% (wrt liblinear SVM)
modified Huber loss and elasticnet regularization
allows to predict posterior probabilities

M regularization metaparameters alpha_j
iterative direct optimization

Label classifier
Training the WISE model
label classifier
binary classifier with probabilistic output
prediction strategy
thresholding of posterior probabilities
iterative direct optimization (IDO)
direct maximization of mean F1
semi-supervised training
utilizes unlabeled test data
Model development
Optimization of
alpha_j
to maximize CV mean F1
training starts with the most frequent label
influenced by the decision strategy (!)
alpha_j
-- logarithmic seq. 10^-5.6, 10^-5.5, ... 10^-4.4
8-fold cross-validation
several iterations (incremental improvements)
Iterative direct optimization
Results
Jan Švec
NTIS - Nové Technologie pro Informační Společnost
Fakulta Aplikovaných Věd
Západočeská Univerzita v Plzni

<honzas@ntis.zcu.cz> @honza_svec

Thresholding of posteriors to provide 0/1 decision
Based on posterior probabilities of labels (label clsf.)
select all labels with prob. > 0.5
add other labels if
prob. > threshold * prob. of the last label above 0.5

Prediction strategy
Q=2
Overfitting ?
203 columns
203 columns
[0 ... 1]
{0 or 1}
65k rows
35k rows
300k columns
O mě...
"Platforma hostující soutěže v Machine Learning"
Kaggle.com
ML challenge
Public leaderboard
Leaderboard
Zpracování a porozumění řeči
Hlasové dialogové systémy
Machine learning
Komunikace člověk-stroj
Zdroj dat
Kaggle Scripts
Tutoriály
Diskuze
Komunita
Jobs
https://www.kaggle.com/c/titanic
Competition Details >> Get the Data >> Make a submission
Popis soutěže
Kritérium
Pravidla
train.csv
test.csv
predict.csv
Leaderboard
Titanic: Machine Learning from Disaster
Predict survival on the Titanic using Excel, Python, R & Random Forests
Výhra
Výzkum & vývoj
Private leaderboard
50:50
Všechna data v test.csv
Blog
Posuny v pořadí při vyhodnocení na private části!
Rozumět kritériu (Acc, F1, ROC AUC) – klíč k úspěchu!
Skenované články z řeckých médií
65k trénovacích dokumentů, 35kdokumentů ke klasifikaci
300k příznaků (normalizované TF-IDF)
203 témat (multi-label klasifikace, minimálně 1 téma)
70:30 rozdělení test dat na public/private
Mean F1 kritérium
Greek Media Monitoring Multilabel Classification (WISE 2014)
Multi-label classification of printed media articles to topics
... aneb když vám kolega pošle odkaz na Jabber
Blum, A., & Hardt, M. (2015). The Ladder: A Reliable Leaderboard for Machine Learning Competitions. In International Conference on Machine Learning 2015.
http://arxiv.org/abs/1502.04585
http://www.kky.zcu.cz/cs/publications/1/JanSvec_2014_Discriminativemodel.pdf
J. Švec: Diskriminativní model pro porozumění mluvené řeči, Disertační práce, 2013
Dovolená není překážkou!
Vaši soupeři nespí, tak proč byste měli vy?
https://www.kaggle.com/inversion/meta-kaggle/exploring-submission-timing/files
I manželka může pochopit, co je Mean F1!
Co jsem si odnesl...
Výborná zkušenost i zážitek ze soutěžení...
Jednoduchý a elegantní multi-label model
G. Tsoumakas, A. Papadopoulos, W. Qian, S. Vologiannidis, A. D’yakonov, A. Puurula, J. Read, J. Švec, S. Semenov: WISE 2014 Challenge: Multi-label Classification of Print Media Articles to Topics https://dx.doi.org/10.1007/978-3-319-11746-1_40
J. Švec: Semi-supervised Learning Algorithm for Binary Relevance Multi-label Classification
https://dx.doi.org/10.1007/978-3-319-20370-6_1
Souhrnný článek na konferenci WISE 2014
Post-conference proceedings
Konkurenční řešení
Alexander D’yakonov (1. místo)
Ensemble of classifiers
Prahování pro multi-label klasifikaci
Využití časového uspořádání trénovacích dat
Ensemble 10 klasifikátorů
kNN, ridge regression, logistic regression
Feature engineering nepomáhá
Prahování g_j / max_i{g_i} > p
Antti Puurula, Jesse Read (2. místo)
Ensemble 200 klasifikátorů
binary relevance, clsf. chain, label powerset
Inverze TF-IDF zpět na county
Prahování p_j > 0.5
word-pairs, LDA příznaky
Stanislav Semenov (4. místo)
Linear SVM, L1 regularization
Regresní modely pro určení optimálního prahu
per-document prahování
predikce horní a dolní meze prahu
příznaky: (seřazené) výstupní psti, rozdíly mezi top 10 pstmi ...

public
leaderboard
private
leaderboard
Možno více finálních modelů
Full transcript