Introducing 

Prezi AI.

Your new presentation assistant.

Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.

Loading…
Transcript

Jurkiewicz Cezary, Krzystanek Filip

CRISP-DM

dla celów bieżących

najprawdopodobniej jednorazowy projekt, służący konkretnemu procesowi drążenia danych

Dwa rodzaje adaptacji modeli ogólnych w konkretne

uszczegóławianie danego procesu w celu wykorzystania go w przyszłości w podobnym kontekście

dla celów przyszłych

Wprowadzenie

Modele ogólne i konkretne

- rola kontekstu

zbiór założeń i ograniczeń dotyczączych drążenia danych: rodzaj problemu, zastosowane techniki, dziedzina zastosowania

- struktura hierarchiczna - od poziomu ogólnego do szczegółowego

obszar zastosowania

model referencyjny

typ problemu drążenia danych

Co to takiego?

krótki opis faz, zadań i rezultatów oraz wytyczne procesu

kwestie techniczne

podręcznik CRISP-DM

- CRoss Industry Standard Process For Data Mining

narzędzia i techniki

rozwinięcie modelu referencyjnego, szczegółowe informacje faz i zadań

- standaryzacja procesu drążenia danych

- metodologia powstała w oparciu o doświadczenia wielu zespołów badawczych z całego świata

- okres opracowywania metodologii - lata 90' ubiegłego wieku

Zrozumienie danych

Zrozumienie uwarunkowań biznesowych

Przygotowanie danych

Plan prezentacji

rezultat:

opracowanie zbioru danych

Ocena sytuacji c.d.

- wymagania - profil grupy docelowej, harmonogram projektu, spis wymagań dotyczących poziomu złożoności, precyzji, możliwości wdrażania wyników i serwisowania

Identyfikacja uwarunkowań biznesowych c.d.

działania:

- założenia - lista wszystkich założeń, jawnych i ukrytych

- założenia dotyczące jakości danych, czynników zewnętrznych, potrzeb prezentacji modelu

- ograniczenia - ogólne, wynikające z budżetu, prawa, czasu i zasobów

- poziom dostępu do danych

- techniczne ograniczenia dostępu do danych

- dostęp do całej wiedzy potrzebnej do realizacji

projektu

Biznesowe kryteria sukcesu

- termin ukończenia projektu, stopień złożoności wyników, kwestie prawne, względy bezpieczeństwa

- założenia których spełnienie wymagane jest w trakcie projektu

- lista ograniczeń i trudności, które potencjalnie mogą się wydarzyć na kolejnych etapach projektu

rezultat:

rezultaty:

- analiza kosztów i zysków projektu w porównaniu z przewidywanymi zyskami, gdy projekt się powiedzie

- koszty zbierania danych, wdrożenia rozwiązania, korzyści wynikające z wdrożenia oraz koszty operacyjne

- uwzględnienie kosztów ukrytych

- lista założeń powinna zawierać też początkowe założenia projektu, co stanowił punkt wyjścia projektu

Wymagania, założenia ograniczenia

Ocena sytuacji c.d.

- indeks słownictwa związanego z projektem, składający się z dwóch komponentów:

- słownik terminów biznesowych, stanowiąych

podstawę zozumienia uwarunkowań biznesowych

- słownik terminologii drążenia danych zilustrowany

przykładami z danej branży

- kryteria na podstawie, których nastąpi ocena czy projekt przyniósł zadowalające efekty

- sprawdzenie czy istnieje już gotowy słownik

- konsultacja z ekspertem danej dziedziny

Ocena sytuacji c.d.

działanie:

wsparcie techniczne może okazać się przydatne w nieoczekiwanych momentach na każdym etapie projektu

Ocena sytuacji c.d.

- zidentyfikowanie sponsora projektu (jeżeli różni się od sponsora wewnętrznego),

administratora sieci, bazy danych oraz obsługi technicznej,

analityków rynku i specjalistów od drążenia danych oraz ich dostępność,

a także specjalistów z dziedziny, której dotyczy projekt

Koszty i zyski

Terminologia

działania:

rezultaty:

Ocena sytuacji

zadanie:

Ocena sytuacji

- zdefiniowanie kryteriów sukcesu (obiektywne lub subiektywne)

- określenie kto będzie oceniał kryteria sukcesu

- kryteria powinny być jasne i kompletne

- identyfikacja ryzyk - poziom ryzyka, szczególnie ryzyka finansowe, ryzyka związane z aspektami technicznymi, z danymi i źródłami danych oraz konstrukcja planu awaryjnego

Identyfikacja uwarunkowań biznesowych

- opis założeń, ograniczeń, zasobów - wszystkiego, co może mieć wpływ na przebieg projektu i realizację celu

rezultat:

zasoby personelu

działania:

zadanie:

Spis zasobów

- personel, dane, zasoby sprzętowe, oprogramowanie

- lista zdarzeń, które mogą negatywnie wpłynąć na przebieg projektu, jego koszty lub rezultaty

- do każdega zdarzenia sporządzić "plan B" minimalizujący negatywny wpływ zdarzenia

- ustalenie rzeczywistych problemów biznesowych klienta

- określenie czynników, które moga mieć wpływ na końcowy wyniki raportu

działania:

identyfikacja celów biznesowych

rezultaty:

rezultat:

- zasoby sprzętowe - poziom dostępności sprzętu, terminarz serwisowania, zidentyfikowanie sprzętu odpowiedniego do wybranego narzędzia drążenia danych

- źródła i rodzaje danych i wiedzy, dostępne narzędzia i techniki

Lista ryzyk i alternatywnych działań

Ocena sytuacji c.d.

- zestawienie informacji o sytuacji biznesowej na poczatku projektu

- dodatkowo: pomoc w określeniu zasobów ludzkich i materialnych potrzebnych do realizacji projektu

- nieformalne określenie problemu, który ma zostać rozwiązany dzięki zastosowaniu drążenia danych

- zapis wszystkich pytań biznesowych

- dodatkowe wymagania klienta

- określenie korzyści wynikających z wdrożenia projektu

Identyfikacja uwarunkowań biznesowych c.d.

- najważniejsze oczekiwania biznesowe klienta

działania:

- model organizacji przesiębiorstwa, departamenty i grupy projektowe, kluczowe osoby, sponsor wewnętrzny projektu

- ogólny opis problemu (czego dotyczy?), aktualny status projektu, warunki wstępne projektu, grupa docelowa projektu, potrzeby i oczekiwania użytkowników

Cele biznesowe

działanie:

rezultat:

Opis danych

- raport z opisu danych - informacje o formacie danych, ilości danych oraz określenie

czy posiadane dane pozwalają zrealizować projekt

- objętościowa analiza danych - identyfikacja danych, analiza statystyczna, opis

tabel, sprawdzenie objętości, powtórzeń, złożoności,

danych tekstowych

- typy zmiennych i ich wartości - dostępność zmiennych, formatu i zakresu

poszczególnych zmiennych, analiza korelacji

- wyjaśnienie znaczenia zmiennych, obliczenie

podstawowych statystyk, interpretacja w kontekście

biznesowym, sprawdzenie potrzeby ważenia danych,

konsultacja z ekspertem

- klucze - analiza najistotniejszych związków między zmiennymi oraz sprawdzenie

poziomu pokrycia kluczowych zmiennych między zbiorami

- rewizja założeń i celów

- charakterystyka ogólnych właściwości danych

Opis danych

działania:

rezultat:

zadanie:

Gromadzenie danych

wejściowych

- raport z zebrania danych - lista wszystkich danych wykorzystywanych w projekcie

oraz ocena poziomu relewantości

Gromadzenie danych wejściowych

- wymagania wobec danych - plan potrzebnych informacji (np. określonych zmiennych)

oraz sprawdzenie ich dostępności

- kryteria wyboru - określenie kryteriów selekcji danych, wyboór adekwatnych zbiorów

danych, określenie analizowanej przestrzeni czasowej

- wprowadzenie danych - określenie sposobu uzyskania brakujących zmiennych, opis

wprowadzania danych

- uzyskanie dostępu do danych oraz wprowadze ich do narzędzia analitycznego

- część informacji nie musi być w formie elektronicznej, mogą ja posiadać pracownicy lub znajdować się w dokumentach drukowanych

- określenie poziomu wpływu danych zmiennych i przypisanie odpowiednich wag

działania:

- wybór dodatkowych zmiennych (ze źródeł wewnętrznych i zewnętrznych)

- testy istotności dla wartości korelacji

- modyfikacja kryteriów wyboru danych

- rozważenie wykorzystania technik doboru próby w celu np. redukcji zbioru danych

- przegląd technik doboru próby

rezultat:

- uzasadnienie wyboru - lista włączonych i wyłączonych zmiennych oraz powody

Wybór danych

zadanie:

działania:

rezultat:

zadanie:

- wybór zmiennych do analizy przy kryterium przydatności do realizacji celów drążenia danych, jakości danych, technicznych ograniczeń

Czyszczenie danych

Wybór danych

- niektóre zmienne nie mają znaczenia dla powodzenia całego projektu, dlatego występujące w nich błędy nie będą miały negatywnego wpływu

działania:

- plan radzenia sobie z zakłoceniami

- możliwe usunięcie, poprawienie lub zignorowanie błędów

- przemyślenie kwestii wartości specjalnych

- rozważenie ponownych kryteriów wyboru danych

rezultat:

- raport z czyszczenia danych - pełny zapis podjętych decyzji, dokonanych transformacji i ich ewentualnego wpływu na analizy

zadanie:

- podniesienie jakości danych do poziomu wymaganego do zastosowania technik,

np. przy pomocy imputacji czy modelowania braków danych

Czyszczenie danych

- przed wprowadzeniem nowych zmiennych warto zastanowić się czy poprawiają jakość modelowania

działania:

- podjęcie decyzji o normalizacji nowych zmiennych (np. rózny poziom zmiennych w analizie skupień)

- transformacje pojedynczych zmiennych np. logarytmizacja

- generowanie nowych rekordów

Tworzenie danych

- jest potrzebne gdy nowe informacje są ważne, a nie dysponujemy takimi cechami w aktualnym zbiorze danych

- algorytm modelowanie przyjmuje tylko określony typ danych, np. w regresji liniowej ewentualność nieuwzględnienia nielinearnych zależności

- wyniki faz modelowania sugerują nieuwzględnienie pewnych faktów

rezultat:

- cechy wyliczone - nowe cechy powstałe w oparciu o jedną lub więcej istniejących cech dla tego samego rekordu

zadanie:

- utworzenie nowych cech, nowych rekordów, przekształcanie istniejących cech

- decyzja o tworzeniu danych w ramach lub poza narzędziem

Tworzenie danych

- sprawdzenie czy wartości zmiennych reprezentują wszystkie możliwe rzeczywiste

wartości

- sprawdzenie kluczy

- brakujące zmienne i white spaces

- braki danych

- wykluczające się kategorie - np. 'dieta' i 'potrawy niskotłuszczowe'

- nieścisłości językowe

- outliers

- przegląd obserwacji budzących podejrzenia (np. nastolatek z 50k dochodu)

- ewentualne usunięcie zmiennych nie wnoszących nic do wyjaśnienia zależności

działania:

Weryfikacja

jakości danych

rezultat:

Eksploracja danych

- eksploracja danych - szczegółowa analiza interesujących zmiennych

- istotne właściwości pod-populacji

- formułowanie hipotez dla dalszych analiz

- ujęcie hipotez w terminach drążenia danych

- doprecyzowanie cele drążenia danych tak, aby pasowały do kontekstu

celów biznesowych

- podstawowe analizy służące weryfikacji hipotez

- raport ze sprawdzenia danych - szczegółowy opis weryfikacji oraz możliwe rozwiązania problemów

działania:

zadanie:

rezultat:

- czy dane są kompletne? czy dane zawierają jakiekolwiek błędy? czy te błędy są częste? czy występują braki danych?

- raport z eksploracji danych - opis powyższych czynności, wstępne hipotezy, spostrzeżenia

zadanie:

Weryfikacja jakości danych

- próba odnalezienia odpowiedzi na pytania projektu drążenia danych przy pomocy penetracji, wizualizacji oraz raportowania

Eksloracja danych

Integracja danych

Fazy modelu CRISP-DM

- nie wszystkie informacje przechowywane są w postaci elektronicznej

działania:

- kryteria sukcesu drążenia danych różnią się od kryteriów sukcesu biznesowego

- sprawdzenie czy narzędzia integracji są w stanie połączyć dane z różnych źródeł

- wykonanie integracji danych i ponowne przemyślenie wyboru danych biorąc pod uwagę doświadczenie z integracji danych

rezultat:

- kryteria - dokładność modelu, jakość jego działania, poziom złożoności

- wyznaczenie miar, na podstawie których nastąpi ewaluacja

- kryteria oceny subiektywnej

- scalenie dwóch lub większej liczby tabel zawierających różne informacje o tych samych zmiennych (poprzez utworzenie nowych rekordów lub danych zagregowanych)

zadanie:

działania:

- określenie technicznych kryteriów

- metody łączenia informacji zawartych w wielu różnych tabelach lub źródłach informacji

rezultat:

Definiowanie kryteriów sukcesu projektu drążenia danych

Integracja danych

Ustalanie celów analitycznych

Określenie celów analizy drążenia danych

zadanie:

- przeformułowanie celów biznesowych na cele projektu z technicznego punktu widzenia

rezultat:

- cele drążenia danych - opis efektu krańcowego projektu

działania:

- operacjonalizacja pytań biznesowych na problemy drążenia danych

- typ problemu drążenia danych (np. klasyfikacja, opis, predykcja, grupowanie)

Przygotowanie planu projektu

działania:

Ustalenie celów analitycznych

- konsultacja wstępnego planu osobom zaangażowanym w projekt

- zestawienie celów analiz i technik oraz związanymi z nimi celami biznesowymi

działania:

- oszacowanie wysiłków i zasobów, zwykle 50-70% czasu zajmuje przygotowanie danych, 20-30% faza zrozumienia danych, 10-20% faza modelowania, ewaluacji zrozumienia uwarunkowań biznesowych oraz 5-10% faza ewaluacji

- oznaczenie kluczowych etapów projektu, momentów podjęcia decyzji, momentów dokonywania rewizji oraz najważniejszych procesów iteracyjnych

Przygotowanie planu

projektu

- opis etapów wraz z uwzględnieniem czasu ich trwania, wymaganych zasobów, danych wejściowych i wyjściowych oraz czynników mających wpływ na każdy z etapów

- ujęcie możliwości powtarzania danych czynności oraz analizę potencjalnych problemów i sposobów ich przezwyciężenia

rezultat:

- wstępna ocena narzędzi i technik - finalny etap pierwszej fazy projektu

rezultat:

działania:

- opis kolejnych etapów projektu

- lista kryteriów wyboru narzędzi i technik, selekcja, ocena przydatności oraz finalny wybór

zadanie:

Przygotowanie planu projektu

działania:

- zamiana układu cech - wprowadzenie cech w odpowiedniej kolejności, np. w pierwszej kolumnie zmienna 'id'

- zmiana kolejności rekordów - np. posortowanie rekordów według wartości zmiennej zależnej

- przeformatowanie wartości - wykonane w celu spełnienia wymogów konkretnego narzędzia modelowania

rezultat:

- wprowadzenie danych według wymagań określonych technik

zadanie:

- modyfikacja typu danych, które nie zmieniają znaczenia tych danych, ale są wymagane ze względu na użyte techniki

Formatowanie danych

Formatowanie danych

1. Wstęp

2. Podręcznik CRISP-DM

3. Rezultaty CRISP-DM

4. Problemy w drążeniu danych

Modelowanie

Raporty częściowe

Wdrożenie

Ewaluacja

- Ryzyko i niepewność - problemy mogące pojawić się w trakcie projektu

- Terminologia - stworzenie słowniczków

- Koszty i zyski - koszty projektu i przewidywane zyski

- Cele i kryteria sukcesu - wyniki projektu, dzięki którym możliwe jest osiągnięcie celów biznesowych

- Plan projektu - lista etapów wykonywanych w procesie drążenia

- Wstępna ocena narzędzi i tchnik - wstępny opis narzędzi i technik

- Wymagania, założenia,ograniczenia - wykaz ogólnych wymagań dotyczących projektu i nałożonych na projekt

Zrozumienie uwarunkowań biznesowych

- Spis zasobów - identyfikacja pracowników, źródeł danych, możliwości technicznych i innych zasobów

- Kontekst - przedstawienie kontekstu, obszaru drążenia danych

Rozdziały dotyczące zrozumienia uwarunkowań biznesowych:

Wybór technik modelowania

Zaprojektowanie procedur testowych

Ewaluacja wyników

zadanie:

- Ewaluacja wyników

rezultat:

- Zaakceptowane modele

- Ocena rezultatów w odniesieniu do kryteriów celów

działania:

- Ocena, w jakim stopniu model spełnia oczekiwania celów biznesowych

- Określenie, czy istnieja przyczyny dla których model jest niepełny

- Przetestowanie modelu w warunkach rzeczywistych

- Sprawdzenie użyteczności modelu

- Sprawdzenie czy wyniki odpowiadaja pierwotnym celom

- Sprawdzenie, czy można postawić sobie nowe cele na podstawie analizy modelu

- Stworzenie wniosków i wytycznych dla przyszłych projektów

Wybór technik modelowania

zadanie:

- Wybór techniki modelowania (właściwy dla danego problemu)

rezultat:

- założenia techniki

- Wybranie właściwej techniki modelowania

działania:

Tworzenie procedur testowych

zadanie:

- Określenie jej założeń dotyczących danych (np. jakość, format, rozkład)

- Porównanie założeń z Opisem Danych

- Upewnienie się o spełnieniu założeń i jeśli to koniecznie powrót do Przygotowania Danych

- Stworzenie procedury testowania jakości i wiarygodności naszego modelu

rezultat:

- Plan przygotowania modelu sprawdzajacy jego jakość i ocenę

- Określenie sposobu podziału dostępnych danych na dane testowe, sprawdzajace i zestawy testów sprawdzajacych

działania:

- Należy sprawdzić proceduy przygotowan modeli dla każdego z celów z osobna

- Okrelenie procedur - takich jak liczba iteracji, prób itd.

- Przygotowanie danych do testów

- Raport ze sprawdzania jakości danych - kontekst wraz z oczekiwania względem jakości danych

Zrozumienie danych

- Raport z eksploracji danych - kontekst wraz z celami eksploracji danych

- Raport z opisu danych - szczegółowy opis każdego ze zbiorów danych, lista tabel

- Raport z zebrania danych - kontekst danych, lista źródeł danych, metody pozyskiwania i ekstrakcji danych

Rozdziały dotyczące

zrozumienia danych:

Plan monitorowania i utrzymania

zadanie:

- Opracowanie planu monitorowania i utrzymania

rezultat:

- Plan procesu monitorowania i utrzymania

działania:

- Określenie, co w modelu jest dynamiczne i może ulec zmianie

- Jak będzie monitorowana trafność?

- Określenie kiedy model przestanie być użyteczny lub stanie się niemożliwy do wykorzystania?

- Czy cele modelu nie zmienia się w czasie?

Plan wdrożenia

zadanie:

- Utworzenie planu wdrożenia

rezultat:

Plan wdrożenia

- Plan wdrożenia

działania:

- Podsumowanie możliwych do wdrożenia rezultatów

- Określenie jak będa monitorowane i mierzone korzyści z wyników

- Decyzja odnośnie implementacji modeli i wyników

- Ustalenie w jaki sposób wyniki modelu zostana wdrożone w systemie

- Zidentyfikowanie możliwych pułapek we wdrożeniu wyników

Plan monitorowania i utrzymania

Przygotowanie danych

- Raport z opisu danych - opis zbioru danych i procesu jego tworzenia

- kontekst wraz z celami i planem przygotowania danych

- uzasadnienie uwzględnienia/wykluczenia z analiz zbiorów

danych

Rozdziały z przygotowania danych:

Przeglad procesu

Przegląd procesu

zadanie:

- Przegląd procesu

rezultat:

- Rewizja procesu

- Wskazówki odnośnie tego co zostało pominięte lub powinno być powtórzone

działania:

- Sprawdzenie, czy zostały jakieś czynniki lub zadania, które zostały przeoczone

- Dokonanie rewizji procesu projektu

- Zidentyfikowanie błędów, określenie miejsc wprowadzajacych w blad

- Określenie alternatywnych ścieżek procesu

Rozdziały dotyczace modelowania:

- Założenia modelowania -

dotyczące danych oraz wszystkich założeń ukrytych w zastoowanych technikach modelowania

- Projektowanie testu -

opisujacy jak modele sa budowane, testowane i oceniane

Modelowanie

- Opis modelu -

zawierajacy opisy dstarczonych modelii procesu ich stworzenia

- Interpretacja modelu -

opisujaca rezultaty testowania modeli

Budowa modelu

zadanie:

Interpretacja modelu

- Wykonanie modelu

rezultat:

zadanie:

- Modele

- Parametry modelu

- Ocena modelu pod względem spełnienia kryteriów analitycznych, oraz kryteriów testów

- Opis modelu, w tym jego trafność, moc i wady oraz sposób interpretacji

- Utworzenie najlepszego z modeli

działania:

rezultat:

- Użycie wybranej techniki na zbiorze danym w celu stworzenia modelu

- Ocena modelu (jakość, użyteczność)

- Opracowanie rezultatów drażenia danych np. edytowanie reguł, wyświetlanie drzew

- Skorygowanie wartości parametrów

- Stworzenie szczegółowego opisu modelu i jego cech charakterystycznych

- Stworzenie szczegółowego opisu reguł decyzyjnych, wraz z oszczacowaniem trafności

- Wnioski dotyczace wzorów występujacych w danych

- Interpretacja parametrów modelu

Budowa modelu

- Analiza wyników pod katem przebiegu procesu modelowania

- Interpretacja wyników

- Ocena reguł - czy sa logiczne, wykonalne ?

- Sprawdzenie możliwości wdrożenia dla każdego z wyników

- Sprawdzenie użyteczności modelu

- Sprawdzenie wpływu modelu na cele drażenia danych

- Sprawdzenie wiarygodności i rzetelności modelu

- Interpretacja wyników pod katem biznesowym

- Wybranie najlepszego z modeli

- Poddanie wyników przyjętym testom oraz ich ewaluacja

działania:

Interpretacja modelu

Rozdziały dotyczace ewaluacji:

porównanie celów biznesowych z rezultatami drazenia danych

- Ocena rezultatów drażenia danych -

- Przegląd procesu -

oceniajacy efektywność projektu

- Lista możliwych działań -

dotyczaca rekomendacji w nastepnych etapach

Ewaluacja

Przygotowanie raportu końcowego

zadanie:

- Przygotowanie raportu końcowego

rezultat:

- Raport końcowy

- Prezentacja końcowa

działania:

- Indentyfikacja uzyskanych rezultatów

- Opisanie procesu projektu

- Opisanie planów wdożenia

- Określenie metody graficznego przedstawienia raportu

- Ustalenie w jakim stopniu zostały zrealizowane cele badania

- Zdefiniowanie grupy docelowej raportu i prezentacji

- Określenie jakie elementy raportu powinny znaleźć się w prezentacji

Rozdziały dotyczace wdrażania:

- Plan wdrażania -

zawiera opis planu wdrozenia i mozliwe do zastosowania rezultaty

określajacy jak powinno wygladac monitorowanie wdrazania

- Plan monitorowania i utrzymania -

Wdrożenie

- Raport końcowy -

podsumowanie wszystkich etapu projektu, analizy, wnioski, rekomendacje

Podsumowanie projektu

Przygotowanie raportu końcowego

Ustalenie kolejnych kroków

zadanie:

- Ustalenie kolejnych kroków

rezultat:

- Lista możliwych działań

- Decyzja odnośnie kontynuacji, wdrożenia, lub nowego projektu

działania:

- Ustalenie, czy nalezy nadal drazyc dane, zakończyć projekt i przystapic do wdrożenia wyników, lub stworzyc nowy projekt

- Przeanalizowanie potencjalnego wdrożenia rezultatów

- Określenie możliwości powtórzenia procesu drazenia danych

- Udoskonalenie planu procesu

- Analiza alternatywnych planów kontynuacji

Ustalenie kolejnych kroków

Podsumowanie projektu

zadanie:

- Podsumowanie projektu

rezultat:

- Udokumentowaie doświadczeń

działania:

- Ocena dobrych i złych stron projektu

- Podsumowanie doświadczeń - pułapek, błędnych podejść, ślepych zaułków

- Zebranie opinii odbiorców projektu

- Udokumentowanie procesu drazenia danych

Podsumowanie zależności

Analiza zależności

Opis konceptu

Opis i podsumowanie danych

- Skupia się na znalezieniu modelu, który opisuje istotne zależności między przypadkami w zbiorze danych

Analiza zależności

- Celem nie jest model predykcyjny ale jedynie wglad w dane

- Podstawowy opis zagregowanych danych

- Umożliwia wglad w strukturę danych

- Jest ściśle powiazany z segmentacja

- Zależności te moga służyć do przewidywania wartości zmiennych na podstawie innych danych

Opis i podsumowanie danych

- Najczęściej stosowane w poczatkowej fazie analizy

Segmentacja

- Celem jest zbudowanie modelu klasyfikacyjnego, który nadaje poprawna nazwę obiektom

- Może służyć także szukaniu asocjacji czyli współwystępowania zmiennych

- Ma charakter ekslopracyjny

Problemy w data mining

Predykcja

Segmentacja

Opis konceptu

Predykcja

- Polega na wyodrębnieniu z danych homogenicznych grup, ale zróżnicowanych między soba

- Jest bardzo podobna do klasyfikacji

- Może być przeprowadzona na podstawie uznanych przez badacza za istotne cech, lub moga one byc zidentyfikowane przez model

- Celem jest znalezienie wartości liczbowych dla przyszłych obiektów

- Może być celem drażenia danych, lub jednym z etapów

Learn more about creating dynamic, engaging presentations with Prezi