Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

Tezurusy - fundament wyszukiwania

Wykład z nauki o informacji
by

Stanislaw Skorka

on 8 December 2015

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of Tezurusy - fundament wyszukiwania

poszukiwanie najlepszej metody
organizowania
,
strukturyzowania
złożonych przestrzeni informacyjnych (najczęściej stron WWW), w taki sposób, aby ludzie mogli
znajdować drogę
powrotną i odczuwać, że środowisko informacyjne
wspiera potrzeby użytkownika
.
Kontrolowany i dynamiczny słownik terminów, między którymi zachodzą relacje semantyczne i rodzajowe, a który w sposób wyczerpujący i wszechstronny obejmuje określoną dziedzinę wiedzy.
Słownik deskryptorów i askryptorów, w którym poszczególne terminy powiązane są z właściwymi deskryptorami za pomocą odsyłaczy i odznaczeń
Tezaurus
Metoda dedukcyjna
Metoda indukcyjna
Projektowanie tezaurusa
ograniczona lista słów lub terminów wyodrębnionych w określonym celu, najczęściej do indeksowania, etykietowania lub kategoryzacji.
system do zarządzania znaczeniami wyrażeń,
Słownik kontrolowany
Tezaurusy – fundamenty wyszukiwania
dr Stanisław Skórka, Uniwersytet Pedagogiczny w Krakowie
Skojarzeniowa
Relacje
Plik autoryzowany
lista terminów preferowanych lub akceptowanych wartości,
Wyszukiwawczy
Rodzaje tezaurusów
(Piróg, 1977, s. 68)
(Piróg, 1977, s. 68)
Typ języka informacyjno-wyszukiwawczego służący do określenia zawartości dokumentów, formułowania zapytań oraz wyszukiwania dokumentów w zbiorach
K. Leski, 1978, s. 16
Słownik kontrolowany
, w którym równoważność oraz hierarchiczne i skojarzeniowe zależności są identyfikowane w celu pozyskiwania informacji
Rosenfeld, Morville, 2003, s. 218
Deskryptor
elementarna jednostka leksykalna języka deskryptorwego
wyrażenie z języka naturalnego, np.:
Zależności w tezaurusie
Równoważna
Zadania tezaurusa
1. ułatwienie opisu dokumentów (obiektów),
Wsparce podczas wyszukiwania informacji poprzez...
2. upraszczanie formułowania zapytań.
Piróg, s. 69
nie zawiera synonimów ani wariantów,
Etapy projektowania tezaurusa
Zasady tworzenia tezaurusów
A
B
Relacja hierarchiczna
część-całość
(merologiczna)
rodzaj-gatunek
(generyczna: podrzędność, nadrzędność)
Samochód
WD Silnik
Polska
WD Kraków
proces-wynik,
Sprawdź słowa kluczowe
http://www.keywordspy.com/
http://www.wordtracker.com/
https://adwords.google.com/
https://delicious.com/
określenie zakresu tematycznego
wskazanie źródeł słownictwa do tezaurusa,
robocze określenie struktury części rzeczowej (systematycznej)
gromadzenie słownictwa,
wybranie sposobu zapisu deskryptorów, askryptorów, ew. modyfikatorów;
opracowanie tezaurusa, w tym części systematycznej.
opracowanie list tzw. identyfikatorów, czyli deskryptorów będących nazwami osób, instytucji, miejsc, tytułami ujednoliconymi i formalnymi
opracowanie układów pomocniczych.
Tezaurusy w sieci
LoC Subject Headings: http://id.loc.gov/authorities/subjects.html
Jest "kontrolowany", ponieważ tylko terminy z listy mogą być używane w danym obszarze tematycznym.
http://www.getty.edu/research/tools/vocabularies/aat/index.html
Wybór terminów: zasady
Sekcja 3.0.
Literackość terminu (występowanie w dokumentach) powinna być zasadniczym kryterium wyboru terminu preferowanego.
Sekcja 5.2.2
Terminy preferowane powinny być wybierane zgodnie z potrzebami większości użytkowników.
Norma ANSI/NISO
Norma ANSI/NISO
Forma gramatyczna
używać rzeczowników, gdyż ludzie lepiej od czasowników i przymiotników rozumieją i zapamiętują rzeczowniki. W uzasadnionych przypadkach: czasowników (np. słowa zorientowane zadaniowo) i przymiotników (np. ceny, rozmiary, odmienność, kolor).
Pisownia
używać "pisowni autoryzowanej", zgodnej ze słownikami, ale można zdecydować się także na styl własny. Istotny jest sposób pisania słów
rozpowszechniony wśród użytkowników.
Najważniejsza jest konsekwencja.
Forma zapisu
liczba mnoga do rzeczy policzalnych (np. samochody, drogi, mapy) i liczba pojedynczą do rzeczowników pojęciowych (np. matematyka, biologia).
Skróty i akronimy
należy używać formy popularnej najlepiej pełna, wyjątki: NASA, ZUS, PZU czy TV.
Rosenfeld, Morville, 2003, s. 233.
Klasyczny
Indeksujący
wykorzystywany do indeksowania i do wyszukiwania,
Architektura informacji
Wiele koncepcji - jedna idea
1. Połączenie sposobu
organizacji informacji
,
nadawania nazw rozpoznawczych
(etykietowania elementów informacyjnych) i schematów przeszukiwania w systemie informacyjnym.
3.
Sztuka
oraz
nauka
nadawania struktur i klasyfikowania serwisów (stron) internetowych i intranetowych, mające na celu ułatwienie ludziom znajdowanie informacji i ich wykorzystanie.
2.
Strukturalne
projektowanie przestrzeni informacyjnej, służące ułatwieniu kompletowania informacji i udostępnianiu jej użytkownikom.
polega na wykorzystaniu gotowych, usystematyzowanych zbiorów słownictwa: norm, słowników terminologicznych, klasyfikacji, indeksów itp.
polega na tworzeniu charakterystyk wyszukiwawczych dokumentów wchodzących w skład specjalnie utworzonego zbioru reprezentatywnego, odwzorowującego w sposób możliwie proporcjonalny cały zakres tematyczny (pole semantyczne) tezaurusa.
Okręt,
Dokument audiowizualny,
Laptop,
Komórka.
Rosenfeld, Morville, s. 209
Rodzaje słowników kontrolowanych
Pierścień synonimów
Askryptor
objaśnienie
askryptor
deskryptory kojarzeniowe
deskryptor tytułowy
wyrażenie z języka naturalnego wprowadzone w celu wskazania reprezentującego go deskryptora, np.:
APARAT FOTOGRAFICZNY
NU Kamera fotograficzna
Architektura informacji
(Bawden D., 2012)
SZCZURY
U GRYZONIE
działanie-narzędzie,
proces-surowiec,
surowiec-wyrób,
proces-aparat,
Słowa kluczowe
keyword, subject word
wyrazy lub wyrażenia wybrane z tytułu lub tekstu dokumentu, charakteryzujące jego treść,
JIW, którego słownictwo tworzą wyrażenia wybierane z tekstu dokumentu lub treści zapytania informacyjnego (słowa kluczowe),
niekontrolowane lub nie w pełni kontrolowane, gramatyką są reguły indeksowania współrzędnego.
Język słów kluczowych
http://www.jiw.w8w.pl/blog/
Przykład słów kluczowych
Zalety i wady

Łatwość stosowania – nie potrzeba żadnego szkolenia użytkowników.
Brak możliwości wyeliminowania wyrażeń bliskoznacznych i synonimicznych, więc
Dokumenty o tej samej treści mogą otrzymać różne opisy, w zależności od użytego w nich słownictwa.
<
META NAME=
"
Keywords
"
CONTENT
="
runy, znaki, futhark, pismo runiczne
">
Baza ScienceDirect
Tagi
Flickr.com
znacznik, wyrażenie, słowo kluczowe ułatwiające odszukanie danego obiektu (filmu, prezentacji, osoby) w określonym serwisie o charakterze społecznościowym

charakterystyka zasobu internetowego dokonywana przez użytkowników w postaci niekontrolowanych wyrażeń pełniących funkcję słów kluczowych
Smith, 2008, s. 5-6
Smith, 2008, s. 5-6
System tagowania
G. Smith 2008, s. 41
lista wyrażeń równoznacznych w postaci
pierścienia synonimów
lub lista wyrażeń preferowanych w postaci w postaci
pliku autoryzowanego
sternik.bn.org.pl
http://www.jiw.w8w.pl/blog/
Chmura tagów w
LibraryThing
dotyczy zarządzania synonimami,
ROBOT KUCHENNY
NU Mikser

Mikser U ROBOT KUCHENNY

klasyfikacja preferowanych terminów przez umieszczenie ich w kategoriach i podkategoriach,
Wyszukujący informacje korzystają z tezaurusa gdy wpisywane zapytania porównywane są z jego zawartością, co pozwala na korzystanie z zarządzania synonimami, przeglądania hierarchii i łączy skojarzeniowych
tezaurus służy do przypisania terminów zastępczych do terminów preferowanych.
Pozwala na tworzenie przeznaczonych do przeglądania indeksów terminów preferowanych, co daje użytkownikom dostęp z jednego miejsca do wielu dokumentów powiązanych tematycznie.
używa słownika kontrolowanego do zwiększenia możliwości wyszukiwawczych systemu, ale nie indeksacji.
Np. gdy użytkownik wprowadzi zapytanie do mechanizmu wyszukiwawczego, tezaurus wyszukujący
najpierw porówna je z zawartością słownika kontrolowanego
, a dopiero potem
dokona wyszukiwania z wykorzystaniem pełnego indeksu
(rozszerzerzy zapytania, wykorzystując pierścienie synonimów)
- generyczna : nadrzędności-podrzędności
Kamera
SD sprzęt optyczny
WD Aparat fotograficzny
WD Kamera cyfrowa

Sprzęt optyczny
. Kamera
. . Aparat fotograficzny
. . Kamera cyfrowa

A = B
Hierarchiczna
- merologiczne (całość-część)
klasa-element
Ocean Atlantycki
SD Ocean
Oko
WD Rogówka

relacja wykorzystywana do wyszukiwania dla podwyższenia kompletność zbiorów wyszukanych informacji.
A
B

zależności subiektywna.

Skanowanie KD Skaner
Jedzenie
KD Niestrawność
Szlifowanie
KD Diament
R. S. Wurman
Popularne w Internecie struktury organizacji treści...
jeden z terminów jest składnikiem definicji drugiego,
Rosenfeld, Morville, s. 225
4. Do jakich celów będzie służył?

1. Jaki zakres tematyczny zamierzamy objąć tezaurusem?
6. Czy system pojęć z zakresu, dla którego przygotowujemy t. jest określony?
5. W jakim systemie gromadzenia, przechowywania, wyszukiwania oraz przetwarzania informacji będzie stosowany?
2. Jakim językiem (językami) będziemy operować?
3. Czy i jaki kod będzie stosowany w tezaurusie?
Leski, 1978, s. 18-22
Struktura tezaurusa
Część główna
Częśc alfabetyczno-hierarchiczna
Część systematyczna
Część graficzna
Zawiera:
uporządkowany alfabetycznie wykaz artykułów deskryptorowych
Odpowiednia informacja o hierarchicznych zależnościach między terminami
Przydatne zarówno dla indeksujących, jak i wyszukujących, którzy chcą odkryć najbardziej odpowiednie, specyficzne terminy dla swoich celów,
Nie ma haseł słownikowych , (tj USE / STOSUJE terminów)
Taksonomie nie wskazują na inne typy relacji między terminami
Dobra informacja o hierarchicznych zależnościach między terminami
Czytelne informacje na temat relacji między terminami
Hasło słownikowe pomaga użytkownikom zlokalizować odpowiednie pojęcia
Są przydatne zarówno dla indeksujących, jak i wyszukujących, którzy chcą odkryć najbardziej odpowiednie terminy dla swoich celów
Są zarazem czasochłonne i pracochłonne – w projektowaniu i utrzymaniu

Tezaurusy: podsumowanie
Taksonomie: podsumowanie
Visual Thesaurus: http://www.visualthesaurus.com/
MeSH: http://www.nlm.nih.gov/mesh
Agrovoc: http://aims.fao.org/standards/agrovoc/functionalities/search
Sternik: http://sternik.bn.org.pl/vocab/index.php?letra=A
ERIC: http://eric.ed.gov/
hierarchia
fasety
Visual Thesaurus
Sortowanie kart
zawiera wszystkie deskryptory wraz z objaśnieniami i definicjami, uporządkowane logicznie.
Część systematyczna tezaurusa przedstawiona w postaci graficznej
Źródła
Guidelines for the Construction, Format and Management of Mono1ingual Thesauri.
ANSI/NISO Z39.19 (2010)
Rosenfeld, L., Morville, P. (2003).
Architektura informacji w serwisach internetowych
. Gliwice: Helion. Wyd. 2.
Leski, K. (1978). Zasady budowy tezaurusów. Warszawa: OIN PAN.
Ścibor, E.; Tomasik-Beck, J. (1995).
Metodyka budowy tezaurusów
. Warszawa: IINTE.
Sosińska-Kalata, B. (2006).
Tezaurusy w zmieniającym się środowisku wyszukiwania informacji
. W: Informacja w sieci. Problemy. Metody. Technologie. Warszawa: Wydaw. SBP, s. 140-156.
Monitoring
KD Kamera cyfrowa
Skóra
KD Pasek skórzany
Przykłady relacji skojarzeniowej
...użytkownicy w większości nie chcą sięgać po bardziej złożone narzędzia, których użycie wymaga poznania ich, a zatem dodatkowego wysiłku.
Równocześnie użytkownicy poszukujący informacji domagają się od tych prostych w użyciu narzędzi wyszukiwawczych wysokiej efektywności selekcjonowania poszukiwanych informacje i umożliwienia symultanicznego przeszukiwanie różnych serwisów.
Zła wiadomość...
B. Sosińska-Kalata
Polihierarchia
Wyjaśnia rzeczy skomplikowane poprzez
organizowanie wzorców w danych
Tworzy struktury i mapy informacji
pozwalające innym znaleźć własną
ścieżkę do wiedzy
ESTIENNE, Robert.
Thesaurus linguae latinae
, Paris: R. Estienne, 1531
G. Knapiusz (Knapski; Gregorius Cnapius),
Thesaurus polono-latino-graecus seu promptuarium lingua Latinae et Graece
[...], F. Caesario, Cracoviae [Kraków] 1621.
Medical Subject Headings
Sternik.bn.org.pl
Metadane
ustrukturalizowane informacje stosowane do opisu zasobów informacji lub obiektów informacji
Opis w Merlin.pl
Opis w OPACu (Virta - CHAMO)
Audioteka.pl
Opis dokumentu NINATEKA
Owoc, warzywo czy jagoda?
Owoce
Warzywa
Jagody
Wyszukiwanie fasetowe
Komputronik.pl
Fasety w katalogu
Biblioteki Uniwersytetu w Wiedniu
Mechanizm
AquaBrowser
w Bibliotece Narodowej Walii
Podsumowania
http://www.fides.org.pl/pdf/tdbk-4-v1.pdf
Tezaurus Nauk Kościelnych
Tezaurus Nauk Kościelnych
http://www.fides.org.pl/pdf/tdbk-4-v1.pdf
http://redesign.cnm.edu/category/research/
Wrzuta.pl
gromadzenie danych o występujących w dokumentach wyrazach i innych treściach (np. grafikach), które umieszcza się w bazach danych umożliwiających późniejsze szybkie wyszukiwanie wyrazów i fraz bez konieczności ponownego analizowania i przeszukiwania źródłowych dokumentów,
Indeksowanie
proces tworzenia i utrzymywania indeksu umożliwiającego skrócenie czasu dostępu do danych.
Wikipedia
Zadanie
Napisz hasło deskryptorowe dla pojęcia:


Sanki
Bombka choinkowa
Nauka o informacji. Wykład. rok akad. 2015/16
Full transcript