Modifiche recenti - Cerca:

emi7oP <a href="http://etyxbsmwlbop.com/">etyxbsmwlbop</a>, [url=http://ejkbnyaqouhe.com/]ejkbnyaqouhe[/url], [link=http://iytqgxxmxvee.com/]iytqgxxmxvee[/link], http://ddjproogyauv.com/

RiassuntoPrimaParte

Riassunto della prima parte del corso di Sistemi Informativi 3

Autore: Estefan Civera

Sommario
L'articolo contiene il riassunto della prima parte del corso di Sistemi Informativi 3 dell'anno accademico 2005/06. La prima parte del corso verte sui sistemi di Information Retrieval.

Introduzione

Componenti di un sistema di Information Retrieval

L'innovazione tecnologica ha portato alla definizione di sistemi in grado di

  • indicizzare e visualizzare l’intero documento
  • usati da utenti inesperti
  • collezioni di documenti multimediali (ad esempio il Web) invari formati

L'evoluzione dell’IR è influenzata da

  • supporti di memorizzazione sempre piu’ capaci ed economici;
  • software per la creazione di documenti in formato digitale
  • strumenti per la digitalizzazione di documenti cartacei.

Opera sia off-line sia on-line

  • off-line: costruisce le rappresentazioni dei documenti mediante indicizzazione e organizza tali rappresentazioni in una struttura dati interna
  • on-line: legge la query di un utente (parsing), la interpreta e restituisce all’utente i documenti stimati rilevanti rispetto ad essa come insieme di documenti stimati rilevanti, una lista ordinata di documenti, oppure come un insieme di cluster di documenti omogenei per argomento.HTML, XML, pdf, RTF, JPEG, GIF, MP3, MOV, ecc.

Componenti principali di un sistema di information retrieval

  • Archivio di documenti: il documento è l'unità di informazione reperibile. Può essere costituito da un testo in forma narrativa (testuale) o essere composto da parti narrative, pittoriali, codificate, etc. (multimediale);
  • Rappresentazione formale dei documenti: sintetizza il contenuto informativo dei documenti; Linguaggio di query; in una query sono espresse le condizioni per la selezione dei documenti di interesse per l'utente;
  • Meccanismo di Confronto (matching): confronta la rappresentazione dei documenti archiviati con le condizioni di selezione espresse nella query.

Un documento si compone principalmente di due componenti: una parte di metadati, attributi atti a descrivere la natura del documento. Ad ognuno di questi attributi viene assegnata dell'informazione al fine di valorizzare i metadati (vedi XML).

Formati dato

  • Per metadati
    • MARC Machine Readable Cataloging Record: formato più diffuso per le digital libraries
    • RDF Resource Description Framework: formato per i metadati relativi a documenti Web.

  • Per documenti testuali
    • Word, Wordperfect, (formato parzialmente binario)
    • TeX, RTF ( Rich Text Format) (formato ASCII) più portabili
  • Visualizzazione e la stampa:
    • PDF (Portable Document Format)
    • Postscript (linguaggio potente per disegni e testo)
    • MIME (Multipurpose Internet Mail Exchange) per le e-mail supporta varie codifiche di caratteri

  • Formati compressi per documenti testuali

Ottimizzano l'occupazione di spazio e riducono i tempi di trasmissione nell'IR distribuito, overhead a causa dei tempi di compressione e decompressione (metodi di compressione: statistici (Huffman), basati su dizionario (Ziv-Lempel)).

  • Formati per immagini
    • Formati per rappresentazioni raster (pixels):XBM, BMP, PCX -> costosi in termini di spazio
  • Formati compressi:
    • GIF Graphic Interchange Format (buono per immagine B/N)
    • JPEG Joint Photographic Experts Group (la perdita èparametrizzata)
    • TIFF Tagged Image File Format (permette di memorizzare metadati)
    • TGA Targa Image File (per video games)

Documenti [semi]-strutturati

Un documento strutturato è composto da sezioni distinte (passage) , testuali o multimediali, di lunghezza variabile. Le sezioni sono sequenze di caratteri omogenee rispetto all’argomento che trattano. Gli archivi di documenti strutturati, sono collezioni di documenti che non hanno una struttura rigidamente fissata, ma sono caratterizzati da irregolarità, ad esempio i documenti su web. Si assume che ciascun documento contenga un numero prefissato di sezioni comuni a tutti (es: URL, Titolo, Testo). Linguaggi per la codifica di documenti semi-strutturati possono essere i linguaggi di markup (SGML - HTML - XML)

Rappresentazione dei documenti: possibili soluzioni

Rappresentare correttamente il contenuto informativo di un documento siginifica definire parole chiave e frasi significative, creare un abstract, definire una rete semantica di concetti (analisi semantica). Una volta definita la maniera con la quale salvare le informazioni è necessario definire come poter accedere alle informazioni. Le query possono essere fatte in linguaggio naturale (NLP),tramite un linguaggio Booleano, (operatori di prossimità).

Difficoltà dell’Information Difficoltà dell’Information Retrieval

Alcune problematiche circondano l'attività di IR. Non è sempre possibile recuperare la totale rappresentazione dei documenti (incompletezza), il risultato è molto soggettivo, si possono avere termini ambigui... E' quindi un'attività da modellare con strumenti formali adatti a trattare imprecisione e incertezza.

Come rappresentare documenti e query?

Tipicamente l’indicizzazione genera un insieme di termini indice (parole, radici, frasi, metadati, vocabolario controllato) (possibilmente pesati) come gli elementi base della rappresentazione formale di un documento o di una query. L’uso della stessa tecnica di indicizzazione per documenti e richieste garantisce un matching corretto. Si deve ricordare che diversi meccanismi di indicizzazione (umani o automatici) in generale non producono la stessa rappresentazione per lo stesso documento! La disponibilità on-line dell’intero documento permette l’uso del documento non solo per la sua visualizzazione ma anche per l’indicizzazione.

Metodi base di Indicizzazione dei documenti

  • Keywords estratte dal testo o elaborate da un esperto(conciso|qualità scadente del retrieval.
  • Rappresentazione Full text (rappresentazione più completa |costi computazionali alti)
  • Eliminazione delle stop words,stemming, identificazione di frasi nominali, compressione
Modifica - Versioni - Stampa - Modifiche recenti - Cerca
Ultima modifica il 02/08/2006 ore 23:26 CEST (Vincenzo)