Il modulo OCR è un modulo opzionale che indicizza tutti i contenuti (es.: oltre a tutti i formati dei documenti tradizionali anche immagini, audio, video) per la ricerca full-text.
NOTA: supporta solo caratteri ASCII e la lettura da sinistra verso destra.
Il modulo OCR può essere installato su tutti gli shard del sistema per bilanciare automaticamente il carico di lavoro tra di essi.
Di seguito la descrizione del funzionamento del modulo OCR:
Fase | Descrizione |
---|---|
1 |
Le immagini di evidence di tipo screenshot e tutti i tipi di documenti, in attesa di conversione, sono memorizzate in una coda separata da quella delle evidence in attesa di essere analizzate. |
2 |
Il modulo OCR legge dalla coda l'immagine o il documento e li converte in testo. L'operazione può durare da uno a 5-10 secondi in base alla quantità di parole da acquisire. |
3 |
Il testo di ogni immagine o documento viene salvato nel database e indicizzato come full-text. |
4 | Nel file di log del modulo vengono registrati i tempi di conversione e indicizzazione della singola immagine. |
5 |
Il testo viene reso disponibile per l'Analista sia nella pagina con l'elenco delle evidence per una ricerca nel campo Info, sia nella pagina di dettaglio della singola evidence. |
Ogni evidence di tipo screenshot occuperà più spazio nel database perché viene sempre accompagnata dai suoi testi indicizzati. L'aumento di spazio non può essere prevedibile perché dipende sia dalla quantità di screenshot acquisite dall'agent, sia dalla quantità di parole contenute dentro ogni screenshot.
Il modulo OCR occupa parecchia CPU durante la conversione di una screenshot, ma viene eseguito con una priorità inferiore rispetto agli altri processi.
L'effetto del carico della CPU si avrà quindi solo con il ritardo con cui il sistema mostra la presenza del testo convertito dell'immagine durante l'analisi delle evidence.
È da preferire da subito l'installazione sugli Shard e non sul Master Node, già carico di processi.
In fase di acquisizione delle immagini occorre controllare il tempo con cui il testo viene reso disponibile nel dettaglio della singola evidence e controllare i tempi registrati nel log. Se sono giudicati eccessivi e se si ha un altro server libero (es.: quello di un altro database shard o del Master Node) è necessario ripetere l'installazione di un altro modulo OCR.
In questo modo il carico di lavoro sarà suddiviso tra tutti i moduli installati.
Per installare un modulo OCR in ambiente back end:
Passi | Risultato |
---|---|
1. Inserire il CD con il pacchetto di installazione. Eseguire il file RCS-ocr-version.exe nella cartella x:\setup: compare la prima finestra del wizard. 2. Fare clic su Next. |
![]() |
3. Procedere con i passaggi successivi fino al completamento dell'installazione: il modulo inizierà a convertire le immagini alla prima ricezione di evidence tipo screenshot. |
- |
Per verificare se la conversione in testo di una immagine è troppo lenta, controllare nella pagina di dettaglio della singola evidence il tempo necessario alla comparsa del pulsante .
È possibile disinstallare il modulo OCR direttamente dal Pannello di Controllo di Windows.
NOTA: la disinstallazione di un modulo OCR non mette a rischio i testi già convertiti e indicizzati.
RCS9.4 | Manuale utente | © COPYRIGHT 2014