Loading presentation...

Present Remotely

Send the link below via email or IM

Copy

Present to your audience

Start remote presentation

  • Invited audience members will follow you as you navigate and present
  • People invited to a presentation do not need a Prezi account
  • This link expires 10 minutes after you close the presentation
  • A maximum of 30 users can follow your presentation
  • Learn more about this feature in our knowledge base article

Do you really want to delete this prezi?

Neither you, nor the coeditors you shared it with will be able to recover it again.

DeleteCancel

jOpenSpace - Textová analytika a její aplikace

Petr Hamerník, Geneea. jOpenSpace 8.10.2016
by

Geneea

on 9 October 2016

Comments (0)

Please log in to add your comment.

Report abuse

Transcript of jOpenSpace - Textová analytika a její aplikace

Unikátní úspěch českých astronomů. Díky jejich výpočtu našli meteorit starý 4,5 miliardy let.

Čeští astronomové patří k absolutní světové špičce ve vypočítávání dráhy padajících meteorů. Díky jejich výpočtům pak lze určit, kde by se mohly nacházet úlomky těchto kosmických těles, zvaných meteority. Takto přesně, jako v případě bolidu, který v březnu proletěl nad Horním Rakouskem, to však ještě nikdo nevypočítal. Hledači pak už mohli jít najisto, v dubnu se jim podařilo nalézt meteorit s úctyhodnou hmotností 1320 gramů, starý je jako samotná sluneční soustava. Objev je unikátní i díky tomu, že se Čechům podařilo vypočítat, odkud z vesmíru toto těleso přiletělo.

zdroj:
aktualne.cz
Textová analytika
a její aplikace

Petr Hamerník
8.10.2016
Textová analytika
Natural language processing (NLP)
Obor mezi informatikou a lingvistikou
Témata NLP:
Strojový překlad
Převod mluveného slova do textu
... a obráceně
Syntaktický rozbor vět
Generování přirozeného jazyka (NLG)
Extrakce informací z textu
a další...
Royal Plaza byl super. Chvíli jsme čekali na recepci, byla tam fronta. Koupelně to bylo trochu zašlé, ale pokojská Lenka byla výborná. Řidič Liftago z centra do Ruzyně byl příjemný.
Nový mobil mě zklamal. Baterka vydrží jenom pár hodin, než se musí znovu nabít. Doma skoro nechytá signál. A už potřetí mi přišla chybná faktura. Buď to teď vyřešíte nebo přejdu jinam.
Praktické aplikace
1. Obsahové štítky
4. Analýza komentářů
5. Další aplikace
2. Helpdesk / Chat
3. Reporting
Royal Plaza: skvělý
Recepce: fronta
Koupelna: zašlá
Lenka: výborná
Liftago: příjemný řidič
Retence: ... přejdu jinam
Finance: ... chybná faktura
Technická podpora: ... nechytá signál...
Zákaznická podpora: ... baterie vydrží
jenom pár hodin...
Shrnutí
1. Množství textových dat roste
2. Je v nich hodnota
3. Praktických aplikací je mnoho
Pro koho?
Co to je?
Přínosy
Propojí tématicky celý web
Nové tématické stránky
Zpřístupní související obsah
Personalizovaný obsah
SEO
Jak na to?
1. Manuálně?
2. Automaticky
Manuální štítkování:
Pracné
Nudné
Nekonzistentní
Příklad postupu
1. Tvary slov
2. Stopwords
3. Výběr relevantních štítků
Lemmatizace vs. Stemming
Texty se vyplatí analyzovat, protože to, co v nich najdete, může mít velkou hodnotu.
Text se vyplatit analyzovat, protože ten, co v on najít, moci mít velká hodnota.
Tex se vypla analyzovat , protoh to, co v nich najdete, můh mít vel hodnotu.
http://research.variancia.com/czech_stemmer/
Stopwords
Texty se vyplatí analyzovat, protože to, co v nich najdete, může mít velkou hodnotu.
Výběr relevantních štítků
Možné štítky:

čeští astronomové
astronom
meteorit

Web o astronomii
Pozměněné štítky:

unikátní objev
Horní Rakousko


Algoritmus TF-IDF
cs.wikipedia.org/wiki/Tf-idf
Porovnávání dokumentů
Korekce textů
Lingvistické atributy pro další machine learning...
Chatbots
Emaily
Tickety helpdesku
Chat
...
Detekce jazyka. Jak?
Cybozu - Open Source
Google API
Geneea API
...
1.
2.
3.
Helpdesk
CRM
20% Provedení
15% Plynulost
10% Fotoaparát
25% Baterie - výdrž
15% Cena
Detekce jazyka
Extrakce pojmenovaných entit
jména firem, produktů
geografické názvy
jména lidí
specializované kategorie
Relace, atributy
Kategorizace
pevné kategorie
otevřené kategorie (štítky)
Analýza sentimentu
Funkce textové analytiky
API & Integrace
REST API
api.geneea.com

Integrace:
Keboola, Bits2b
MS Excel, Google Sheet
Helpdesky
IMAP

Demo
Analýza sentimentu
Geneea
NLG (Natural language generation)
Strukturovaná data Text
petr.hamernik@gmail.com
Pár poznámek o lingvistice
Full transcript