Introducing
Your new presentation assistant.
Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.
Trending searches
Jan Švec
NTIS - Nové Technologie pro Informační Společnost
Fakulta Aplikovaných Věd
Západočeská Univerzita v Plzni
<honzas@ntis.zcu.cz> @honza_svec
Multi-label classification of printed media articles to topics
Zpracování a porozumění řeči
Ensemble of classifiers
Hlasové dialogové systémy
Machine learning
Prahování pro multi-label klasifikaci
At least 1 label assigned (even if posterior prob << 0.5)
Uses test data to better model distribution of feature vectors
(1) Train supervised model
(2) Predict labels on test data
(3) Use them as additional training data
(4) Update test data labels after each IDO iteration
Skenované články z řeckých médií
65k trénovacích dokumentů, 35kdokumentů ke klasifikaci
300k příznaků (normalizované TF-IDF)
203 témat (multi-label klasifikace, minimálně 1 téma)
70:30 rozdělení test dat na public/private
Mean F1 kritérium
Komunikace člověk-stroj
Využití časového uspořádání trénovacích dat
Výzkum & vývoj
... aneb když vám kolega pošle odkaz na Jabber
Ensemble 10 klasifikátorů
"Platforma hostující soutěže v Machine Learning"
První submission – 5. místo na public leaderboardu!
Model založený na SVM, obdoba modelu pro porozumění řeči
kNN, ridge regression, logistic regression
Diskuze
Zdroj dat
J. Švec: Diskriminativní model pro porozumění mluvené řeči, Disertační práce, 2013
http://www.kky.zcu.cz/cs/publications/1/JanSvec_2014_Discriminativemodel.pdf
Tutoriály
Jobs
Binary classifier for each label j=1...M (M=203)
trained using stochastic gradient descent (SGDClassifier)
mean F1 +1.2% (wrt liblinear SVM)
modified Huber loss and elasticnet regularization
allows to predict posterior probabilities
M regularization metaparameters alpha_j
iterative direct optimization
Feature engineering nepomáhá
Kaggle Scripts
Komunita
Prahování g_j / max_i{g_i} > p
Blog
Competition Details >> Get the Data >> Make a submission
Denní rytmus: Modeluj - trénuj - submituj
Ensemble 200 klasifikátorů
train.csv
predict.csv
Popis soutěže
Vaši soupeři nespí, tak proč byste měli vy?
binary relevance, clsf. chain, label powerset
Optimization of alpha_j to maximize CV mean F1
training starts with the most frequent label
influenced by the decision strategy (!)
alpha_j -- logarithmic seq. 10^-5.6, 10^-5.5, ... 10^-4.4
8-fold cross-validation
several iterations (incremental improvements)
test.csv
Kritérium
Leaderboard
Dovolená není překážkou!
Inverze TF-IDF zpět na county
Pravidla
I manželka může pochopit, co je Mean F1!
word-pairs, LDA příznaky
Výhra
https://www.kaggle.com/inversion/meta-kaggle/exploring-submission-timing/files
Prahování p_j > 0.5
https://www.kaggle.com/c/titanic
Výborná zkušenost i zážitek ze soutěžení...
Linear SVM, L1 regularization
Public leaderboard
Jednoduchý a elegantní multi-label model
Všechna data v test.csv
50:50
Regresní modely pro určení optimálního prahu
Private leaderboard
Souhrnný článek na konferenci WISE 2014
Thresholding of posteriors to provide 0/1 decision
Based on posterior probabilities of labels (label clsf.)
select all labels with prob. > 0.5
add other labels if
prob. > threshold * prob. of the last label above 0.5
Posuny v pořadí při vyhodnocení na private části!
G. Tsoumakas, A. Papadopoulos, W. Qian, S. Vologiannidis, A. D’yakonov, A. Puurula, J. Read, J. Švec, S. Semenov: WISE 2014 Challenge: Multi-label Classification of Print Media Articles to Topics https://dx.doi.org/10.1007/978-3-319-11746-1_40
Možno více finálních modelů
Rozumět kritériu (Acc, F1, ROC AUC) – klíč k úspěchu!
Post-conference proceedings
per-document prahování
predikce horní a dolní meze prahu
příznaky: (seřazené) výstupní psti, rozdíly mezi top 10 pstmi ...
J. Švec: Semi-supervised Learning Algorithm for Binary Relevance Multi-label Classification
https://dx.doi.org/10.1007/978-3-319-20370-6_1
Blum, A., & Hardt, M. (2015). The Ladder: A Reliable Leaderboard for Machine Learning Competitions. In International Conference on Machine Learning 2015.
http://arxiv.org/abs/1502.04585