Installazione modulo OCR

Introduzione

Il modulo OCR è un modulo opzionale che indicizza tutti i contenuti (es.: oltre a tutti i formati dei documenti tradizionali anche immagini, audio, video) per la ricerca full-text.

NOTA: supporta solo caratteri ASCII e la lettura da sinistra verso destra.

Prerequisiti all'installazione

Il modulo OCR può essere installato su tutti gli shard del sistema per bilanciare automaticamente il carico di lavoro tra di essi.

Funzionamento del modulo OCR

Di seguito la descrizione del funzionamento del modulo OCR:

Fase Descrizione
1

Le immagini di evidence di tipo screenshot e tutti i tipi di documenti, in attesa di conversione, sono memorizzate in una coda separata da quella delle evidence in attesa di essere analizzate.

2

Il modulo OCR legge dalla coda l'immagine o il documento e li converte in testo. L'operazione può durare da uno a 5-10 secondi in base alla quantità di parole da acquisire.

3

Il testo di ogni immagine o documento viene salvato nel database e indicizzato come full-text.

4 Nel file di log del modulo vengono registrati i tempi di conversione e indicizzazione della singola immagine.
5

Il testo viene reso disponibile per l'Analista sia nella pagina con l'elenco delle evidence per una ricerca nel campo Info, sia nella pagina di dettaglio della singola evidence.

Occupazione di spazio nel database dei testi indicizzati

Ogni evidence di tipo screenshot occuperà più spazio nel database perché viene sempre accompagnata dai suoi testi indicizzati. L'aumento di spazio non può essere prevedibile perché dipende sia dalla quantità di screenshot acquisite dall'agent, sia dalla quantità di parole contenute dentro ogni screenshot.

Carico di lavoro di un modulo OCR

Il modulo OCR occupa parecchia CPU durante la conversione di una screenshot, ma viene eseguito con una priorità inferiore rispetto agli altri processi.

L'effetto del carico della CPU si avrà quindi solo con il ritardo con cui il sistema mostra la presenza del testo convertito dell'immagine durante l'analisi delle evidence.

È da preferire da subito l'installazione sugli Shard e non sul Master Node, già carico di processi.

Sintomi di carico eccessivo

In fase di acquisizione delle immagini occorre controllare il tempo con cui il testo viene reso disponibile nel dettaglio della singola evidence e controllare i tempi registrati nel log. Se sono giudicati eccessivi e se si ha un altro server libero (es.: quello di un altro database shard o del Master Node) è necessario ripetere l'installazione di un altro modulo OCR.

In questo modo il carico di lavoro sarà suddiviso tra tutti i moduli installati.

Installazione del modulo OCR

Per installare un modulo OCR in ambiente back end:

Passi Risultato

Inserire il CD con il pacchetto di installazione. Eseguire il file nella cartella : compare la prima finestra del wizard.

Fare clic su Next.

Procedere con i passaggi successivi fino al completamento dell'installazione: il modulo inizierà a convertire le immagini alla prima ricezione di evidence tipo screenshot.

-
Verificare il corretto funzionamento del modulo OCR

Per verificare se la conversione in testo di una immagine è troppo lenta, controllare nella pagina di dettaglio della singola evidence il tempo necessario alla comparsa del pulsante .

Disinstallazione

È possibile disinstallare il modulo OCR direttamente dal Pannello di Controllo di Windows.

NOTA: la disinstallazione di un modulo OCR non mette a rischio i testi già convertiti e indicizzati.