|
emi7oP <a href="http://etyxbsmwlbop.com/">etyxbsmwlbop</a>, [url=http://ejkbnyaqouhe.com/]ejkbnyaqouhe[/url], [link=http://iytqgxxmxvee.com/]iytqgxxmxvee[/link], http://ddjproogyauv.com/ |
RiassuntoPrimaParteRiassunto della prima parte del corso di Sistemi Informativi 3Autore: Estefan Civera Sommario
L'articolo contiene il riassunto della prima parte del corso di Sistemi Informativi 3 dell'anno accademico 2005/06. La prima parte del corso verte sui sistemi di Information Retrieval.
IntroduzioneComponenti di un sistema di Information RetrievalL'innovazione tecnologica ha portato alla definizione di sistemi in grado di
L'evoluzione dell’IR è influenzata da
Opera sia off-line sia on-line
Componenti principali di un sistema di information retrieval
Un documento si compone principalmente di due componenti: una parte di metadati, attributi atti a descrivere la natura del documento. Ad ognuno di questi attributi viene assegnata dell'informazione al fine di valorizzare i metadati (vedi XML). Formati dato
Ottimizzano l'occupazione di spazio e riducono i tempi di trasmissione nell'IR distribuito, overhead a causa dei tempi di compressione e decompressione (metodi di compressione: statistici (Huffman), basati su dizionario (Ziv-Lempel)).
Documenti [semi]-strutturatiUn documento strutturato è composto da sezioni distinte (passage) , testuali o multimediali, di lunghezza variabile. Le sezioni sono sequenze di caratteri omogenee rispetto all’argomento che trattano. Gli archivi di documenti strutturati, sono collezioni di documenti che non hanno una struttura rigidamente fissata, ma sono caratterizzati da irregolarità, ad esempio i documenti su web. Si assume che ciascun documento contenga un numero prefissato di sezioni comuni a tutti (es: URL, Titolo, Testo). Linguaggi per la codifica di documenti semi-strutturati possono essere i linguaggi di markup (SGML - HTML - XML) Rappresentazione dei documenti: possibili soluzioniRappresentare correttamente il contenuto informativo di un documento siginifica definire parole chiave e frasi significative, creare un abstract, definire una rete semantica di concetti (analisi semantica). Una volta definita la maniera con la quale salvare le informazioni è necessario definire come poter accedere alle informazioni. Le query possono essere fatte in linguaggio naturale (NLP),tramite un linguaggio Booleano, (operatori di prossimità). Difficoltà dell’Information Difficoltà dell’Information RetrievalAlcune problematiche circondano l'attività di IR. Non è sempre possibile recuperare la totale rappresentazione dei documenti (incompletezza), il risultato è molto soggettivo, si possono avere termini ambigui... E' quindi un'attività da modellare con strumenti formali adatti a trattare imprecisione e incertezza. Come rappresentare documenti e query?Tipicamente l’indicizzazione genera un insieme di termini indice (parole, radici, frasi, metadati, vocabolario controllato) (possibilmente pesati) come gli elementi base della rappresentazione formale di un documento o di una query. L’uso della stessa tecnica di indicizzazione per documenti e richieste garantisce un matching corretto. Si deve ricordare che diversi meccanismi di indicizzazione (umani o automatici) in generale non producono la stessa rappresentazione per lo stesso documento! La disponibilità on-line dell’intero documento permette l’uso del documento non solo per la sua visualizzazione ma anche per l’indicizzazione. ![]() Metodi base di Indicizzazione dei documenti
|