Modifiche recenti - Cerca:

Categorie

Pagine utente

Winzipedia

Uso dell'wiki

modifica il menu

RiassuntoPrimaParte

SistemiInformativi3.RiassuntoPrimaParte Versioni

Mostra le modifiche minori - Mostra le modifiche

Modificate le linee 2-4: da:
'''Autore:''' [[Profiles.Estefan|Estefan Civera]]\\
'''Hanno contribuito:'''
a:
'''Autore:''' [[Profiles.Estefan|Estefan Civera]]
01/06/2006 ore 12:05 CEST di Vincenzo - Aggiunta di autore, collaboratori e sommario. Correzione di titoli e sottotitoli
Modificate le linee 1-5: da:
!Introduzione

----

!Componenti
di un sistema di Information Retrieval
a:
!Riassunto della prima parte del corso di Sistemi Informativi 3
'''Autore:''' [[Profiles.Estefan|Estefan Civera]]\\
'''Hanno contribuito:'''

->'''Sommario'''
->[-L'articolo contiene il riassunto della prima parte del corso di Sistemi Informativi 3 dell'anno accademico 2005/06. La prima parte del corso verte sui sistemi di ''Information Retrieval''.-]

!!Introduzione

!!
!Componenti di un sistema di Information Retrieval
Modificata la linea 16: da:
l''''evoluzione''' influenzata da
a:
L''''evoluzione''' influenzata da
Modificata la linea 25: da:
!!Componenti principali di un sistema di information retrieval
a:
!!!Componenti principali di un sistema di information retrieval
Modificata la linea 32: da:
!!Formati dato
a:
!!!Formati dato
Modificata la linea 57: da:
!!Documenti [semi]-strutturati
a:
!!!Documenti [semi]-strutturati
Modificata la linea 62: da:
!Rappresentazione dei documenti: possibili soluzioni
a:
!!Rappresentazione dei documenti: possibili soluzioni
Modificata la linea 67: da:
!! Retrieval
a:
!!! Retrieval
Modificata la linea 70: da:
!!Come rappresentare documenti e query?
a:
!!!Come rappresentare documenti e query?
Modificata la linea 76: da:
!!Metodi base di Indicizzazione dei documenti
a:
!!!Metodi base di Indicizzazione dei documenti
09/05/2006 ore 08:43 CEST di Estevan - Inserita immagine
Modificate le linee 69-70: da:
a:
%center%Attach:repinfo.JPG
08/05/2006 ore 18:13 CEST di Estevan - Creazione della pagina
Aggiunte le linee 1-73:
!Introduzione

----

!Componenti di un sistema di Information Retrieval
L''''innovazione tecnologica''' ha portato alla definizione di sistemi in grado di

*usati da utenti inesperti
*collezioni di documenti multimediali (ad esempio il Web) invari formati



*software per la creazione di documenti in formato digitale
*strumenti per la digitalizzazione di documenti cartacei.

'''Opera sia off-line sia on-line'''
*off-line: costruisce le rappresentazioni dei documenti mediante indicizzazione e organizza tali rappresentazioni in una struttura dati interna


!!Componenti principali di un sistema di information retrieval

*'''Rappresentazione formale dei documenti''': sintetizza il contenuto informativo dei documenti; Linguaggio di query; in una query sono espresse le condizioni per la selezione dei documenti di interesse per l'utente;
*'''Meccanismo di Confronto (matching)''': confronta la rappresentazione dei documenti archiviati con le condizioni di selezione espresse nella query.

Un documento si compone principalmente di due componenti: una parte di metadati, attributi atti a descrivere la natura del documento. Ad ognuno di questi attributi viene assegnata dell'informazione al fine di valorizzare i metadati (vedi XML).

!!Formati dato
*Per metadati

**'''RDF Resource Description Framework''': formato per i metadati relativi a documenti Web.

*Per documenti testuali
**Word, Wordperfect, (formato parzialmente binario)

*Visualizzazione e la stampa:
**PDF (Portable Document Format)
**Postscript (linguaggio potente per disegni e testo)
**MIME (Multipurpose Internet Mail Exchange) per le e-mail supporta varie codifiche di caratteri

*Formati compressi per documenti testuali
Ottimizzano l'occupazione di spazio e riducono i tempi di trasmissione nell'IR distribuito, overhead a causa dei tempi di compressione e decompressione (metodi di compressione: statistici (Huffman), basati su dizionario (Ziv-Lempel)).

*Formati per immagini
**Formati per rappresentazioni raster (pixels):XBM, BMP, PCX -> costosi in termini di spazio
*Formati compressi:
**GIF Graphic Interchange Format (buono per immagine B/N)

**TIFF Tagged Image File Format (permette di memorizzare metadati)
**TGA Targa Image File (per video games)


!!Documenti [semi]-strutturati


Testo). Linguaggi per la codifica di documenti semi-strutturati possono essere i linguaggi di markup (SGML - HTML - XML)

!Rappresentazione dei documenti: possibili soluzioni
Rappresentare correttamente il contenuto informativo di un documento siginifica definire parole chiave e
frasi significative, creare un abstract, definire una rete semantica di concetti (analisi semantica).





!!Come rappresentare documenti e query?




!!Metodi base di Indicizzazione dei documenti


*Eliminazione delle stop words,stemming, identificazione di frasi nominali, compressione
Modifica - Versioni - Stampa - Modifiche recenti - Cerca
Ultima modifica il 02/08/2006 ore 23:26 CEST