Gestió
Electrònica
de Documents
Multimèdia
Tema 2:
Text.
OCR
ASCII art
Optical character recognition
Processador de textos a l'Edat Mitjana ;-)
Parlarem de:
Característiques:
El format text és aquell format que conté informació textual: lletres, números, símbols, etc.
- És el format més "senzill".
- No té pèrdua d'informació.
- Té un pes molt baix.
- Definició, característiques.
- Classificacions.
- Formats més coneguts.
Senzill però...
HTML
- Depèn de la codificació.
- Pot contenir informació gràfica => això provoca que no sigui "senzill".
El codi HTML 'original' també es pot considerar 'text pla', tot i que requereix un navegador per "veure'l".
Proporciona estructura.
Format de text pla...
SGML
Format que no permet que s'indiqui cap informació de com s'ha de representar gràficament el text, només conté estrictament la "informació real".
Llenguatge per estructurar informació de documents.
En el fons és un llenguatge per definir altres llenguatges (com l'HTML).
Clippy...
1971
Fitxers de text pla...
Es poden codificar de diferents maneres:
- ASCII, ISO-8859-1, Unicode, etc
ASCII
WYSIWYM
"What You See Is What You Mean" (el que veus és el que vols dir)
Creat inicialment el 1963.
128 codis.
Creat per facilitar la transmissió electrònica de dades.
Dóna una codificació numèrica a cada caràcter (anglès).
ASCII extès
256 codis (inclou l'ASCII).
Creat per poder codificar altres llengües a part de l'anglès.
I tenir més caràcters de control.
Per tant, tenim fitxers sense presentació (editors de text) o fitxers amb presentació (processadors de text) especificant directament aquesta presentació o la semàntica.
CSS
Objectiu principal: separar l'estructura del document (HTML) de la seva presentació (CSS).
Una altra classificació és en funció de la portabilitat...
CSS <> HTML
Aquesta separació facilita:
- L'accessibilitat web.
- L'indexació de la informació.
- Tenir vàries presentacions per una mateixa informació.
ISO 8859-1
PDF
(Portable Document Format)
és l’estàndar més usat en el món de la publicació electrònica.
WYSIWYG
Llenguatge de descripció de la pàgina.
Creat (1982) per representar text i imatges igual en el paper que en la pantalla o impressora làser.
Un tipus de codificació ASCII extès.
Creat per poder codificar els caràcters de la majoria de llengües europees (especialment les llatines).
També es coneix com a Latin-1.
"What You See Is What You Get" (el que veus és el que obtens)
Característiques:
Unicode
WordStar
- Portabilitat.
- Edició controlada.
- Compressió.
> 50K codis (inclou l'ASCII).
Creat per poder codificar els caràcters de la majoria de llengües existents al món.