- tartalmazza a Weka összes funkcióját
- aktív fejlesztés, pár havonta új verzió
- rohamos fejlődés, sok fejlesztő
- jobb memóriakezelés
- felhasználóbarát interfész
+ moduláris, kompakt operátorok
+ magasabb szintű műveletek: pl. ciklusok
+ automatikus struktúra-ellenőrzés
+ letisztult struktúrához új interfész
- nehezen tanulható
- viszonylag gyenge dokumentáció
Problémafelvetés:
- tőzsdei stratégia
- tucatnyi ismeretlen paraméter
- sok évre visszamenő adathalmaz
- mi az optimális paraméterezés?
Rapidminer tartalmazza:
- beolvasás - kiírás
- adatelőfeldolgozás
- statisztikai mutatók kiszámítása
- optimalizáló ciklusok
Fejlesztendő:
Előnyök:
- rugalmas, moduláris szerkezet
- aktív fejlesztés
- rengeteg, friss operátor
- saját operátorok fejlesztése
Hátrányok:
- nehezen tanulható (5.0)
- Java alapú, memóriaintenzív
- olykor hibás operátorok
Community Edition:
Enterprise Edition:
- többmagos rendszerek
- riporting támogatás
- 1500-10000 euró/év
Összefoglalás
Optimalizálás
Bevezetés
Egyetlen operátor fejlesztése
- 150 sor operátor-szkeleton
- 300 sor saját Java kód
- betanulással együtt két hét
Osztályozás
E-commerce anomaly detection
Működés
2 éve:
- Rapidminer 4.0
- nulla magyar Google-találat
most:
- Rapidminer 4.6, 5.0beta
- több mint 500 Google-találat
- diplomamunkák
- ipari projektek
Előfeldolgozott adathalmaz
Döntési fa modell építése
Boosting alapfelvetés:
Lehet-e több gyenge szabály együtt
erősebb, mint egy erős szabály
AdaBoost (1996)
LogitBoost (2000-2006)
Boosting hatása:
- 50. hely -> 4. hely
- legjobb európai megoldás
Azóta banki/telekom churn
problémáknál is sikerrel alkalmaztuk.
http://www.rapidminer.com
http://adatbanyaszat.blog.hu
prekopcsak@tmit.bme.hu