Modulo OCR

Introduzione

Il modulo OCR è un modulo che indicizza tutti i contenuti (es.: oltre a tutti i formati dei documenti tradizionali anche immagini, audio, video) per la ricerca full-text. Inoltre, si occupa di effettuare il "face-detection" nelle immagini per supportare l'intelligence nella creazione dei profili dei target.

NOTA: supporta solo caratteri ASCII e la lettura da sinistra verso destra.

Installazione

Il modulo OCR è installato e abilitato automaticamente con l'installazione del Master node e di eventuali shard aggiuntivi.

NOTA: il modulo è abilitato solo se previsto da licenza.

Funzionamento del modulo OCR

Di seguito la descrizione del funzionamento del modulo OCR:

Fase Descrizione
1 Le immagini di evidence di tipo screenshot e tutti i tipi di documenti, in attesa di conversione, sono memorizzate in una coda separata da quella delle evidence in attesa di essere analizzate.
2 Il modulo OCR legge dalla coda l'immagine o il documento e li converte in testo. L'operazione può durare da uno a 5-10 secondi in base alla quantità di parole da acquisire.
3 Il testo di ogni immagine o documento viene salvato nel database e indicizzato come full-text.
4 Nel file di log del modulo vengono registrati i tempi di conversione e indicizzazione della singola immagine.
5 Il testo viene reso disponibile per l'Analista sia nella pagina con l'elenco delle evidence per una ricerca nel campo Info, sia nella pagina di dettaglio della singola evidence.
Occupazione di spazio nel database dei testi indicizzati

Ogni evidence di tipo screenshot occuperà più spazio nel database perché viene sempre accompagnata dai suoi testi indicizzati. L'aumento di spazio non può essere prevedibile perché dipende sia dalla quantità di screenshot acquisite dall'agent, sia dalla quantità di parole contenute dentro ogni screenshot.

Carico di lavoro di un modulo OCR

Il modulo OCR occupa parecchia CPU durante la conversione di una screenshot, ma viene eseguito con una priorità inferiore rispetto agli altri processi.

L'effetto del carico della CPU si avrà quindi solo con il ritardo con cui il sistema mostra la presenza del testo convertito dell'immagine durante l'analisi delle evidence.

Sintomi di carico eccessivo

In fase di acquisizione delle immagini occorre controllare il tempo con cui il testo viene reso disponibile nel dettaglio della singola evidence e controllare i tempi registrati nel log. Se sono giudicati eccessivi è necessario aggiungere uno shard all'installazione attuale.

In questo modo il carico di lavoro sarà suddiviso tra tutti i moduli installati.

Verificare il corretto funzionamento del modulo OCR

Per verificare se la conversione in testo di una immagine è troppo lenta, controllare nella pagina di dettaglio della singola evidence il tempo necessario alla comparsa del pulsante .

Disabilitare o riabilitare il modulo OCR

Per disabilitare o riabilitare il modulo OCR, dal prompt dei comandi di Windows del Master node, eseguire rispettivamente i seguenti comandi:

Risultato: il modulo OCR è disabilitato/riabilitato contemporaneamente su tutti gli shard.

NOTA: la disabilitazione di un modulo OCR non mette a rischio i testi già convertiti e indicizzati.