Loading…
Transcript
  • tartalmazza a Weka összes funkcióját
  • aktív fejlesztés, pár havonta új verzió
  • rohamos fejlődés, sok fejlesztő
  • jobb memóriakezelés
  • felhasználóbarát interfész

+ moduláris, kompakt operátorok

+ magasabb szintű műveletek: pl. ciklusok

+ automatikus struktúra-ellenőrzés

+ letisztult struktúrához új interfész

- nehezen tanulható

- viszonylag gyenge dokumentáció

Problémafelvetés:

  • tőzsdei stratégia
  • tucatnyi ismeretlen paraméter
  • sok évre visszamenő adathalmaz

  • mi az optimális paraméterezés?

Rapidminer tartalmazza:

  • beolvasás - kiírás
  • adatelőfeldolgozás
  • statisztikai mutatók kiszámítása
  • optimalizáló ciklusok

Fejlesztendő:

  • a kereskedési stratégia

Előnyök:

  • rugalmas, moduláris szerkezet
  • aktív fejlesztés
  • rengeteg, friss operátor
  • saját operátorok fejlesztése

Hátrányok:

  • nehezen tanulható (5.0)
  • Java alapú, memóriaintenzív
  • olykor hibás operátorok

Community Edition:

  • ingyenes

Enterprise Edition:

  • többmagos rendszerek
  • riporting támogatás
  • 1500-10000 euró/év

Összefoglalás

Optimalizálás

Bevezetés

miért pont Rapidminer?

Egyetlen operátor fejlesztése

  • 150 sor operátor-szkeleton
  • 300 sor saját Java kód
  • betanulással együtt két hét

adatbányászati szoftver

Osztályozás

E-commerce anomaly detection

Működés

miért én? miért most?

2 éve:

  • Rapidminer 4.0
  • nulla magyar Google-találat

most:

  • Rapidminer 4.6, 5.0beta
  • több mint 500 Google-találat
  • diplomamunkák
  • ipari projektek

Előfeldolgozott adathalmaz

Döntési fa modell építése

Modell elmentése

Boosting alapfelvetés:

Lehet-e több gyenge szabály együtt

erősebb, mint egy erős szabály

AdaBoost (1996)

LogitBoost (2000-2006)

Boosting hatása:

  • 50. hely -> 4. hely
  • legjobb európai megoldás

Azóta banki/telekom churn

problémáknál is sikerrel alkalmaztuk.

http://www.rapidminer.com

http://adatbanyaszat.blog.hu

prekopcsak@tmit.bme.hu