Introducing
Your new presentation assistant.
Refine, enhance, and tailor your content, source relevant images, and edit visuals quicker than ever before.
Trending searches
Jurkiewicz Cezary, Krzystanek Filip
dla celów bieżących
dla celów przyszłych
- rola kontekstu
zbiór założeń i ograniczeń dotyczączych drążenia danych: rodzaj problemu, zastosowane techniki, dziedzina zastosowania
- struktura hierarchiczna - od poziomu ogólnego do szczegółowego
obszar zastosowania
model referencyjny
typ problemu drążenia danych
kwestie techniczne
podręcznik CRISP-DM
- CRoss Industry Standard Process For Data Mining
narzędzia i techniki
- standaryzacja procesu drążenia danych
- metodologia powstała w oparciu o doświadczenia wielu zespołów badawczych z całego świata
- okres opracowywania metodologii - lata 90' ubiegłego wieku
opracowanie zbioru danych
- wymagania - profil grupy docelowej, harmonogram projektu, spis wymagań dotyczących poziomu złożoności, precyzji, możliwości wdrażania wyników i serwisowania
- założenia - lista wszystkich założeń, jawnych i ukrytych
- założenia dotyczące jakości danych, czynników zewnętrznych, potrzeb prezentacji modelu
- ograniczenia - ogólne, wynikające z budżetu, prawa, czasu i zasobów
- poziom dostępu do danych
- techniczne ograniczenia dostępu do danych
- dostęp do całej wiedzy potrzebnej do realizacji
projektu
Biznesowe kryteria sukcesu
- termin ukończenia projektu, stopień złożoności wyników, kwestie prawne, względy bezpieczeństwa
- założenia których spełnienie wymagane jest w trakcie projektu
- lista ograniczeń i trudności, które potencjalnie mogą się wydarzyć na kolejnych etapach projektu
rezultat:
- lista założeń powinna zawierać też początkowe założenia projektu, co stanowił punkt wyjścia projektu
- kryteria na podstawie, których nastąpi ocena czy projekt przyniósł zadowalające efekty
działanie:
wsparcie techniczne może okazać się przydatne w nieoczekiwanych momentach na każdym etapie projektu
- zidentyfikowanie sponsora projektu (jeżeli różni się od sponsora wewnętrznego),
administratora sieci, bazy danych oraz obsługi technicznej,
analityków rynku i specjalistów od drążenia danych oraz ich dostępność,
a także specjalistów z dziedziny, której dotyczy projekt
zadanie:
Ocena sytuacji
- zdefiniowanie kryteriów sukcesu (obiektywne lub subiektywne)
- określenie kto będzie oceniał kryteria sukcesu
- kryteria powinny być jasne i kompletne
- identyfikacja ryzyk - poziom ryzyka, szczególnie ryzyka finansowe, ryzyka związane z aspektami technicznymi, z danymi i źródłami danych oraz konstrukcja planu awaryjnego
- opis założeń, ograniczeń, zasobów - wszystkiego, co może mieć wpływ na przebieg projektu i realizację celu
rezultat:
- personel, dane, zasoby sprzętowe, oprogramowanie
- lista zdarzeń, które mogą negatywnie wpłynąć na przebieg projektu, jego koszty lub rezultaty
- do każdega zdarzenia sporządzić "plan B" minimalizujący negatywny wpływ zdarzenia
- ustalenie rzeczywistych problemów biznesowych klienta
- określenie czynników, które moga mieć wpływ na końcowy wyniki raportu
działania:
identyfikacja celów biznesowych
- zasoby sprzętowe - poziom dostępności sprzętu, terminarz serwisowania, zidentyfikowanie sprzętu odpowiedniego do wybranego narzędzia drążenia danych
- źródła i rodzaje danych i wiedzy, dostępne narzędzia i techniki
- zestawienie informacji o sytuacji biznesowej na poczatku projektu
- dodatkowo: pomoc w określeniu zasobów ludzkich i materialnych potrzebnych do realizacji projektu
- nieformalne określenie problemu, który ma zostać rozwiązany dzięki zastosowaniu drążenia danych
- zapis wszystkich pytań biznesowych
- dodatkowe wymagania klienta
- określenie korzyści wynikających z wdrożenia projektu
- najważniejsze oczekiwania biznesowe klienta
- model organizacji przesiębiorstwa, departamenty i grupy projektowe, kluczowe osoby, sponsor wewnętrzny projektu
- ogólny opis problemu (czego dotyczy?), aktualny status projektu, warunki wstępne projektu, grupa docelowa projektu, potrzeby i oczekiwania użytkowników
Cele biznesowe
działanie:
rezultat:
Opis danych
- raport z opisu danych - informacje o formacie danych, ilości danych oraz określenie
czy posiadane dane pozwalają zrealizować projekt
- objętościowa analiza danych - identyfikacja danych, analiza statystyczna, opis
tabel, sprawdzenie objętości, powtórzeń, złożoności,
danych tekstowych
- typy zmiennych i ich wartości - dostępność zmiennych, formatu i zakresu
poszczególnych zmiennych, analiza korelacji
- wyjaśnienie znaczenia zmiennych, obliczenie
podstawowych statystyk, interpretacja w kontekście
biznesowym, sprawdzenie potrzeby ważenia danych,
konsultacja z ekspertem
- klucze - analiza najistotniejszych związków między zmiennymi oraz sprawdzenie
poziomu pokrycia kluczowych zmiennych między zbiorami
- rewizja założeń i celów
- charakterystyka ogólnych właściwości danych
Gromadzenie danych
wejściowych
- raport z zebrania danych - lista wszystkich danych wykorzystywanych w projekcie
oraz ocena poziomu relewantości
- wymagania wobec danych - plan potrzebnych informacji (np. określonych zmiennych)
oraz sprawdzenie ich dostępności
- kryteria wyboru - określenie kryteriów selekcji danych, wyboór adekwatnych zbiorów
danych, określenie analizowanej przestrzeni czasowej
- wprowadzenie danych - określenie sposobu uzyskania brakujących zmiennych, opis
wprowadzania danych
- uzyskanie dostępu do danych oraz wprowadze ich do narzędzia analitycznego
- określenie poziomu wpływu danych zmiennych i przypisanie odpowiednich wag
- wybór dodatkowych zmiennych (ze źródeł wewnętrznych i zewnętrznych)
- testy istotności dla wartości korelacji
- modyfikacja kryteriów wyboru danych
- rozważenie wykorzystania technik doboru próby w celu np. redukcji zbioru danych
- przegląd technik doboru próby
- uzasadnienie wyboru - lista włączonych i wyłączonych zmiennych oraz powody
Wybór danych
- wybór zmiennych do analizy przy kryterium przydatności do realizacji celów drążenia danych, jakości danych, technicznych ograniczeń
Czyszczenie danych
- niektóre zmienne nie mają znaczenia dla powodzenia całego projektu, dlatego występujące w nich błędy nie będą miały negatywnego wpływu
- plan radzenia sobie z zakłoceniami
- możliwe usunięcie, poprawienie lub zignorowanie błędów
- przemyślenie kwestii wartości specjalnych
- rozważenie ponownych kryteriów wyboru danych
- raport z czyszczenia danych - pełny zapis podjętych decyzji, dokonanych transformacji i ich ewentualnego wpływu na analizy
- podniesienie jakości danych do poziomu wymaganego do zastosowania technik,
np. przy pomocy imputacji czy modelowania braków danych
- przed wprowadzeniem nowych zmiennych warto zastanowić się czy poprawiają jakość modelowania
- podjęcie decyzji o normalizacji nowych zmiennych (np. rózny poziom zmiennych w analizie skupień)
- transformacje pojedynczych zmiennych np. logarytmizacja
- generowanie nowych rekordów
Tworzenie danych
- jest potrzebne gdy nowe informacje są ważne, a nie dysponujemy takimi cechami w aktualnym zbiorze danych
- algorytm modelowanie przyjmuje tylko określony typ danych, np. w regresji liniowej ewentualność nieuwzględnienia nielinearnych zależności
- wyniki faz modelowania sugerują nieuwzględnienie pewnych faktów
- cechy wyliczone - nowe cechy powstałe w oparciu o jedną lub więcej istniejących cech dla tego samego rekordu
- utworzenie nowych cech, nowych rekordów, przekształcanie istniejących cech
- decyzja o tworzeniu danych w ramach lub poza narzędziem
- sprawdzenie czy wartości zmiennych reprezentują wszystkie możliwe rzeczywiste
wartości
- sprawdzenie kluczy
- brakujące zmienne i white spaces
- braki danych
- wykluczające się kategorie - np. 'dieta' i 'potrawy niskotłuszczowe'
- nieścisłości językowe
- outliers
- przegląd obserwacji budzących podejrzenia (np. nastolatek z 50k dochodu)
- ewentualne usunięcie zmiennych nie wnoszących nic do wyjaśnienia zależności
Weryfikacja
jakości danych
Eksploracja danych
- eksploracja danych - szczegółowa analiza interesujących zmiennych
- istotne właściwości pod-populacji
- formułowanie hipotez dla dalszych analiz
- ujęcie hipotez w terminach drążenia danych
- doprecyzowanie cele drążenia danych tak, aby pasowały do kontekstu
celów biznesowych
- podstawowe analizy służące weryfikacji hipotez
- raport ze sprawdzenia danych - szczegółowy opis weryfikacji oraz możliwe rozwiązania problemów
- czy dane są kompletne? czy dane zawierają jakiekolwiek błędy? czy te błędy są częste? czy występują braki danych?
- raport z eksploracji danych - opis powyższych czynności, wstępne hipotezy, spostrzeżenia
- próba odnalezienia odpowiedzi na pytania projektu drążenia danych przy pomocy penetracji, wizualizacji oraz raportowania
Integracja danych
- nie wszystkie informacje przechowywane są w postaci elektronicznej
- sprawdzenie czy narzędzia integracji są w stanie połączyć dane z różnych źródeł
- wykonanie integracji danych i ponowne przemyślenie wyboru danych biorąc pod uwagę doświadczenie z integracji danych
- scalenie dwóch lub większej liczby tabel zawierających różne informacje o tych samych zmiennych (poprzez utworzenie nowych rekordów lub danych zagregowanych)
- metody łączenia informacji zawartych w wielu różnych tabelach lub źródłach informacji
Ustalenie celów analitycznych
Przygotowanie planu
projektu
- zamiana układu cech - wprowadzenie cech w odpowiedniej kolejności, np. w pierwszej kolumnie zmienna 'id'
- zmiana kolejności rekordów - np. posortowanie rekordów według wartości zmiennej zależnej
- przeformatowanie wartości - wykonane w celu spełnienia wymogów konkretnego narzędzia modelowania
- wprowadzenie danych według wymagań określonych technik
- modyfikacja typu danych, które nie zmieniają znaczenia tych danych, ale są wymagane ze względu na użyte techniki
Formatowanie danych
1. Wstęp
2. Podręcznik CRISP-DM
3. Rezultaty CRISP-DM
4. Problemy w drążeniu danych
- Ryzyko i niepewność - problemy mogące pojawić się w trakcie projektu
- Terminologia - stworzenie słowniczków
- Koszty i zyski - koszty projektu i przewidywane zyski
- Cele i kryteria sukcesu - wyniki projektu, dzięki którym możliwe jest osiągnięcie celów biznesowych
- Plan projektu - lista etapów wykonywanych w procesie drążenia
- Wstępna ocena narzędzi i tchnik - wstępny opis narzędzi i technik
- Wymagania, założenia,ograniczenia - wykaz ogólnych wymagań dotyczących projektu i nałożonych na projekt
Zrozumienie uwarunkowań biznesowych
- Spis zasobów - identyfikacja pracowników, źródeł danych, możliwości technicznych i innych zasobów
Rozdziały dotyczące zrozumienia uwarunkowań biznesowych:
Wybór technik modelowania
Zaprojektowanie procedur testowych
Ewaluacja wyników
- Ewaluacja wyników
- Zaakceptowane modele
- Ocena rezultatów w odniesieniu do kryteriów celów
- Ocena, w jakim stopniu model spełnia oczekiwania celów biznesowych
- Określenie, czy istnieja przyczyny dla których model jest niepełny
- Przetestowanie modelu w warunkach rzeczywistych
- Sprawdzenie użyteczności modelu
- Sprawdzenie czy wyniki odpowiadaja pierwotnym celom
- Sprawdzenie, czy można postawić sobie nowe cele na podstawie analizy modelu
- Stworzenie wniosków i wytycznych dla przyszłych projektów
Wybór technik modelowania
- Wybór techniki modelowania (właściwy dla danego problemu)
- założenia techniki
- Wybranie właściwej techniki modelowania
Tworzenie procedur testowych
- Określenie jej założeń dotyczących danych (np. jakość, format, rozkład)
- Porównanie założeń z Opisem Danych
- Upewnienie się o spełnieniu założeń i jeśli to koniecznie powrót do Przygotowania Danych
- Stworzenie procedury testowania jakości i wiarygodności naszego modelu
- Plan przygotowania modelu sprawdzajacy jego jakość i ocenę
- Określenie sposobu podziału dostępnych danych na dane testowe, sprawdzajace i zestawy testów sprawdzajacych
- Należy sprawdzić proceduy przygotowan modeli dla każdego z celów z osobna
- Okrelenie procedur - takich jak liczba iteracji, prób itd.
- Przygotowanie danych do testów
- Raport ze sprawdzania jakości danych - kontekst wraz z oczekiwania względem jakości danych
Zrozumienie danych
- Raport z eksploracji danych - kontekst wraz z celami eksploracji danych
- Raport z opisu danych - szczegółowy opis każdego ze zbiorów danych, lista tabel
Rozdziały dotyczące
zrozumienia danych:
Plan monitorowania i utrzymania
- Opracowanie planu monitorowania i utrzymania
- Plan procesu monitorowania i utrzymania
- Określenie, co w modelu jest dynamiczne i może ulec zmianie
- Jak będzie monitorowana trafność?
- Określenie kiedy model przestanie być użyteczny lub stanie się niemożliwy do wykorzystania?
- Czy cele modelu nie zmienia się w czasie?
Plan wdrożenia
- Utworzenie planu wdrożenia
Plan wdrożenia
- Plan wdrożenia
- Podsumowanie możliwych do wdrożenia rezultatów
- Określenie jak będa monitorowane i mierzone korzyści z wyników
- Decyzja odnośnie implementacji modeli i wyników
- Ustalenie w jaki sposób wyniki modelu zostana wdrożone w systemie
- Zidentyfikowanie możliwych pułapek we wdrożeniu wyników
Plan monitorowania i utrzymania
Przygotowanie danych
Rozdziały z przygotowania danych:
Przeglad procesu
Przegląd procesu
- Przegląd procesu
- Rewizja procesu
- Wskazówki odnośnie tego co zostało pominięte lub powinno być powtórzone
- Sprawdzenie, czy zostały jakieś czynniki lub zadania, które zostały przeoczone
- Dokonanie rewizji procesu projektu
- Zidentyfikowanie błędów, określenie miejsc wprowadzajacych w blad
- Określenie alternatywnych ścieżek procesu
Rozdziały dotyczace modelowania:
- Założenia modelowania -
dotyczące danych oraz wszystkich założeń ukrytych w zastoowanych technikach modelowania
- Projektowanie testu -
opisujacy jak modele sa budowane, testowane i oceniane
Modelowanie
- Opis modelu -
zawierajacy opisy dstarczonych modelii procesu ich stworzenia
- Interpretacja modelu -
opisujaca rezultaty testowania modeli
Budowa modelu
Interpretacja modelu
- Wykonanie modelu
- Modele
- Parametry modelu
- Ocena modelu pod względem spełnienia kryteriów analitycznych, oraz kryteriów testów
- Opis modelu, w tym jego trafność, moc i wady oraz sposób interpretacji
- Utworzenie najlepszego z modeli
- Użycie wybranej techniki na zbiorze danym w celu stworzenia modelu
- Ocena modelu (jakość, użyteczność)
- Opracowanie rezultatów drażenia danych np. edytowanie reguł, wyświetlanie drzew
- Skorygowanie wartości parametrów
- Stworzenie szczegółowego opisu modelu i jego cech charakterystycznych
- Stworzenie szczegółowego opisu reguł decyzyjnych, wraz z oszczacowaniem trafności
- Wnioski dotyczace wzorów występujacych w danych
- Interpretacja parametrów modelu
Budowa modelu
- Analiza wyników pod katem przebiegu procesu modelowania
- Interpretacja wyników
- Ocena reguł - czy sa logiczne, wykonalne ?
- Sprawdzenie możliwości wdrożenia dla każdego z wyników
- Sprawdzenie użyteczności modelu
- Sprawdzenie wpływu modelu na cele drażenia danych
- Sprawdzenie wiarygodności i rzetelności modelu
- Interpretacja wyników pod katem biznesowym
- Wybranie najlepszego z modeli
- Poddanie wyników przyjętym testom oraz ich ewaluacja
Interpretacja modelu
Rozdziały dotyczace ewaluacji:
porównanie celów biznesowych z rezultatami drazenia danych
- Ocena rezultatów drażenia danych -
- Przegląd procesu -
oceniajacy efektywność projektu
- Lista możliwych działań -
dotyczaca rekomendacji w nastepnych etapach
Ewaluacja
Przygotowanie raportu końcowego
- Przygotowanie raportu końcowego
- Raport końcowy
- Prezentacja końcowa
- Indentyfikacja uzyskanych rezultatów
- Opisanie procesu projektu
- Opisanie planów wdożenia
- Określenie metody graficznego przedstawienia raportu
- Ustalenie w jakim stopniu zostały zrealizowane cele badania
- Zdefiniowanie grupy docelowej raportu i prezentacji
- Określenie jakie elementy raportu powinny znaleźć się w prezentacji
Rozdziały dotyczace wdrażania:
- Plan wdrażania -
zawiera opis planu wdrozenia i mozliwe do zastosowania rezultaty
określajacy jak powinno wygladac monitorowanie wdrazania
- Plan monitorowania i utrzymania -
Wdrożenie
- Raport końcowy -
podsumowanie wszystkich etapu projektu, analizy, wnioski, rekomendacje
Podsumowanie projektu
Przygotowanie raportu końcowego
Ustalenie kolejnych kroków
- Ustalenie kolejnych kroków
- Lista możliwych działań
- Decyzja odnośnie kontynuacji, wdrożenia, lub nowego projektu
- Ustalenie, czy nalezy nadal drazyc dane, zakończyć projekt i przystapic do wdrożenia wyników, lub stworzyc nowy projekt
- Przeanalizowanie potencjalnego wdrożenia rezultatów
- Określenie możliwości powtórzenia procesu drazenia danych
- Udoskonalenie planu procesu
- Analiza alternatywnych planów kontynuacji
Ustalenie kolejnych kroków
Podsumowanie projektu
- Podsumowanie projektu
- Udokumentowaie doświadczeń
- Ocena dobrych i złych stron projektu
- Podsumowanie doświadczeń - pułapek, błędnych podejść, ślepych zaułków
- Zebranie opinii odbiorców projektu
- Udokumentowanie procesu drazenia danych
Podsumowanie zależności
- Skupia się na znalezieniu modelu, który opisuje istotne zależności między przypadkami w zbiorze danych
Analiza zależności
- Celem nie jest model predykcyjny ale jedynie wglad w dane
- Podstawowy opis zagregowanych danych
- Umożliwia wglad w strukturę danych
- Jest ściśle powiazany z segmentacja
- Zależności te moga służyć do przewidywania wartości zmiennych na podstawie innych danych
Opis i podsumowanie danych
- Najczęściej stosowane w poczatkowej fazie analizy
Segmentacja
- Celem jest zbudowanie modelu klasyfikacyjnego, który nadaje poprawna nazwę obiektom
- Może służyć także szukaniu asocjacji czyli współwystępowania zmiennych
- Ma charakter ekslopracyjny
Problemy w data mining
Opis konceptu
Predykcja
- Polega na wyodrębnieniu z danych homogenicznych grup, ale zróżnicowanych między soba
- Jest bardzo podobna do klasyfikacji
- Może być przeprowadzona na podstawie uznanych przez badacza za istotne cech, lub moga one byc zidentyfikowane przez model
- Celem jest znalezienie wartości liczbowych dla przyszłych obiektów
- Może być celem drażenia danych, lub jednym z etapów