Categorie
Winzipedia Uso dell'wiki |
RiassuntoPrimaParteSistemiInformativi3.RiassuntoPrimaParte VersioniNascondi le modifiche minori - Mostra le modifiche Modificate le linee 2-4: da:
'''Autore:''' [[Profiles.Estefan|Estefan Civera]] '''Hanno contribuito:''' a:
'''Autore:''' [[Profiles.Estefan|Estefan Civera]] 01/06/2006 ore 12:05 CEST
di - Aggiunta di autore, collaboratori e sommario. Correzione di titoli e sottotitoli
Modificate le linee 1-5: da:
! ---- !Componenti a:
!Riassunto della prima parte del corso di Sistemi Informativi 3 '''Autore:''' [[Profiles.Estefan|Estefan Civera]]\\ '''Hanno contribuito:''' ->'''Sommario''' ->[-L'articolo contiene il riassunto della prima parte del corso di Sistemi Informativi 3 dell'anno accademico 2005/06. La prima parte del corso verte sui sistemi di ''Information Retrieval''.-] !!Introduzione !!!Componenti di un sistema di Information Retrieval Modificata la linea 16: da:
a:
L''''evoluzione''' influenzata da Modificata la linea 25: da:
!!Componenti principali di un sistema di information retrieval a:
!!!Componenti principali di un sistema di information retrieval Modificata la linea 32: da:
!!Formati dato a:
!!!Formati dato Modificata la linea 57: da:
!!Documenti [semi]-strutturati a:
!!!Documenti [semi]-strutturati Modificata la linea 62: da:
!Rappresentazione dei documenti: possibili soluzioni a:
!!Rappresentazione dei documenti: possibili soluzioni Modificata la linea 67: da:
!! Retrieval a:
!!! Retrieval Modificata la linea 70: da:
!!Come rappresentare documenti e query? a:
!!!Come rappresentare documenti e query? Modificata la linea 76: da:
!!Metodi base di Indicizzazione dei documenti a:
!!!Metodi base di Indicizzazione dei documenti 09/05/2006 ore 08:43 CEST
di - Inserita immagine
Modificate le linee 69-70: da:
a:
%center%Attach:repinfo.JPG 08/05/2006 ore 18:13 CEST
di - Creazione della pagina
Aggiunte le linee 1-73:
!Introduzione ---- !Componenti di un sistema di Information Retrieval L''''innovazione tecnologica''' ha portato alla definizione di sistemi in grado di *usati da utenti inesperti *collezioni di documenti multimediali (ad esempio il Web) invari formati *software per la creazione di documenti in formato digitale *strumenti per la digitalizzazione di documenti cartacei. '''Opera sia off-line sia on-line''' *off-line: costruisce le rappresentazioni dei documenti mediante indicizzazione e organizza tali rappresentazioni in una struttura dati interna !!Componenti principali di un sistema di information retrieval *'''Rappresentazione formale dei documenti''': sintetizza il contenuto informativo dei documenti; Linguaggio di query; in una query sono espresse le condizioni per la selezione dei documenti di interesse per l'utente; *'''Meccanismo di Confronto (matching)''': confronta la rappresentazione dei documenti archiviati con le condizioni di selezione espresse nella query. Un documento si compone principalmente di due componenti: una parte di metadati, attributi atti a descrivere la natura del documento. Ad ognuno di questi attributi viene assegnata dell'informazione al fine di valorizzare i metadati (vedi XML). !!Formati dato *Per metadati **'''RDF Resource Description Framework''': formato per i metadati relativi a documenti Web. *Per documenti testuali **Word, Wordperfect, (formato parzialmente binario) *Visualizzazione e la stampa: **PDF (Portable Document Format) **Postscript (linguaggio potente per disegni e testo) **MIME (Multipurpose Internet Mail Exchange) per le e-mail supporta varie codifiche di caratteri *Formati compressi per documenti testuali Ottimizzano l'occupazione di spazio e riducono i tempi di trasmissione nell'IR distribuito, overhead a causa dei tempi di compressione e decompressione (metodi di compressione: statistici (Huffman), basati su dizionario (Ziv-Lempel)). *Formati per immagini **Formati per rappresentazioni raster (pixels):XBM, BMP, PCX -> costosi in termini di spazio *Formati compressi: **GIF Graphic Interchange Format (buono per immagine B/N) **TIFF Tagged Image File Format (permette di memorizzare metadati) **TGA Targa Image File (per video games) !!Documenti [semi]-strutturati Testo). Linguaggi per la codifica di documenti semi-strutturati possono essere i linguaggi di markup (SGML - HTML - XML) !Rappresentazione dei documenti: possibili soluzioni Rappresentare correttamente il contenuto informativo di un documento siginifica definire parole chiave e frasi significative, creare un abstract, definire una rete semantica di concetti (analisi semantica). !!Come rappresentare documenti e query? !!Metodi base di Indicizzazione dei documenti *Eliminazione delle stop words,stemming, identificazione di frasi nominali, compressione |