Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Make your likes visible on Facebook?

Connect your Facebook account to Prezi and let your likes appear on your timeline.
You can change this under Settings & Account at any time.

No, thanks

Untitled Prezi

No description
by

Marta Ochab

on 13 June 2013

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Untitled Prezi

Magdalena Herba
Marlena Homotnik
Marta Ochab
Anna Paczkowska

Budowa modelu regresji
Regresja
Interpretacja
Metoda statystyczna pozwalająca na badanie związku pomiędzy wielkościami danych i przewidywanie na tej podstawie nieznanych wartości jednych wielkości na podstawie znanych wartości innych.
Użycie regresji w praktyce
Drzewa klasyfikacyjne i regresyjne (C&RT - Classification and Regression Trees)
Metody
Wybór najlepszej metody
Zmienną od której najardziej zależy obszar spalonych lasów to "miesiąc" W przypadku miesięcy Lipiec i grudzień obszar ten jest największy. W pozostałych miesiącach zmienną decydującą jest temperatura.
Jeżeli przekracza 22,05 to kolejnym decydującym czynnikiem jest wskaźnik DMC. Gdy jest on większy od 128,7 to obszar spalonych obszarów lasów zależy od dnia tygodnia. W przypadku piątku i środy średni obszar spalenia to 12,7 a w pozostałych dniach tygodnia wynosi on 17,71.
Analogicznie do tego możemy dokonujemy interpretacji całego drzewa.
konstruowanie modelu - budowa tzw. modelu regresyjnego, czyli funkcji opisującej, jak zależy wartość oczekiwana zmiennej objaśnianej od zmiennych objaśniających. Funkcja ta może być zadana nie tylko czystym wzorem matematycznym, ale także całym algorytmem, np. w postaci drzewa regresyjnego, sieci neuronowej, itp.. Model konstruuje się tak, aby jak najlepiej pasował do danych z próby, zawierającej zarówno zmienne objaśniające, jak i objaśniane (tzw. zbiór uczący). Mówiąc o wyliczaniu regresji ma się na myśli tę fazę.
stosowanie modelu (tzw. scoring) - użycie wyliczonego modelu do danych w których znamy tylko zmienne objaśniające, w celu wyznaczenia wartości oczekiwanej zmiennej objaśnianej.
Z regresją mamy do czynienie tam, gdzie chcemy poznać wartość zmiennej ciągłej, na podstawie znajomości wartości jednej lub większej liczby predykcyjnych zmiennych ciągłych oraz, ewentualnie zmiennych kategorialnych. Na przykład, interesuje nas cena domu, przy czym znamy różne ciągłe predyktory (jak np. powierzchnia mieszkania), jak i predyktory kategorialne (jak np. styl architektoniczny, dzielnica miasta). Poszukujemy linowego równania, za pomocą którego obliczymy interesującą nas cenę.
modele CHAID
Losowy las (Random Forests)
Jest to jedna z najstarszych metod drzew klasyfikacyjnych, CHAID nie buduje drzew binarnych (tzn. buduje drzewa, w których z węzłów mogą wychodzić więcej niż dwie gałęzie) i wykonuje to za pomocą stosunkowo prostego algorytmu, który nadaje się zwłaszcza do analizy dużych zbiorów danych. , algorytm ten jest popularny w badaniach marketingowych i rynkowych w kontekście badań segmentacji rynku.
Najogólniej, celem analizy z zastosowaniem algorytmu budowy drzew jest znalezienie zbioru logicznych warunków podziału, typu jeżeli, to, prowadzących do jednoznacznego zaklasyfikowania obiektów.
Losowy las nadaje się do rozwiązywania zarówno zadań klasyfikacyjnych, jak i regresyjnych. W metodzie tej do przewidywania wartości zmiennej zależnej stosujemy zespół wielu, stosunkowo prostych, drzew decyzyjnych. Każde z tych drzew przewiduje wartość zmiennej zależnej na podstawie zmiennych niezależnych (predyktorów), a przewidywanie całego modelu wyznaczane jest przez uśrednianie albo głosowanie. Użytkownik może sterować procesem tworzenia modelu. Możemy m.in. określić złożoność drzew składowych, maksymalną liczbę drzew tworzących model i kryterium zakończenia procesu uczenia.
Najważniejszą zmienną jest miesiąc, od którego zależy wielkość spalonych obszarów lasów.
W przypadku miesięcy Lipiec i grudzień obszar ten jest największy. W pozostałych miesiącach zmienną decydującą jest temperatura. Dla temperatury przekraczającej 22,05 czynnikiem decydującym jest wskaźnik wilgotności górnej warstwy organicznej. Tak samo można dokonać analizy całego drzewa.
Cel zadania:
Analiza zależności pomiędzy wielkościami spalonych obszarów lasów a podanymi zmiennymi.
Budowa modelu regresji za pomocą trzech wybranych metod.
Zmienne ilościowe:
1. X - współrzędna x parku Montesinho : 1 to 9
2. Y – współrzędna y parku Montesinho: 2 to 9
3. FFMC - FFMC indeks systemu FWI: 18.7 to 96.20 - kod wilgotności ściółki
4. DMC - DMC indeks systemu FWI: 1.1 to 291.3 - kod wilgotności górnej warstwy organicznej
5. DC - DC indeks systemu FWI : 7.9 to 860.6 - kod wilgotności dolnej warstwy organicznej
6. ISI - ISI indeks systemu FWI : 0.0 to 56.10 - opisuje szybkość rozprzestrzenia się ognia
7. temp – temperatura w stopniach Celcjusza: 2.2 to 33.30
8. RH – wilgotność w %: 15.0 to 100
9. wind – prędkość wiatru w km/h: 0.40 to 9.40
10. rain – wielkość opadów: mm/m2 : 0.0 to 6.4

Zmienne jakościowe:
1. month – miesiąc: od „jan” do „dec”
2. day – dzień tygodnia: od "mon" do "sun"
Zmienna objaśniana:
area – spalony obszar lasów (in ha): od 0.00 do 1090.84
Full transcript