El módulo OCR es un módulo opcional que indexa todo el contenido (p. ej.: además de los documentos tradicionales, también indexa imágenes, archivos de audio, videos) para una búsqueda de texto completo.
NOTA: solo es compatible con los caracteres ASCII y la lectura de izquierda a derecha.
Es posible instalar el módulo OCR en todas las bases de datos shard del sistema para equilibrar automáticamente la carga de trabajo.
A continuación se describe el funcionamiento del módulo OCR:
Fase | Descripción |
---|---|
1 |
Las imágenes de la evidencia de tipo screenshot y todos los tipos de documentos, en espera de conversión se guardan en una cola diferente de la evidencia en espera de análisis. |
2 |
El módulo OCR lee la imagen o el documento de la cola y lo convierte en texto. Esta operación puede demorar entre uno y 5 o 10 segundos, según la cantidad de palabras que se deben obtener. |
3 |
El texto de cada imagen o documento se guarda en una base de datos y se etiqueta como texto completo. |
4 | Los tiempos de conversión y las etiquetas para esa imagen particular se guardan en el archivo de registro del módulo. |
5 |
El analista podrá acceder al texto en la página con la lista de evidencias para una búsqueda en el campo Info o en la página detallada de esa evidencia particular. |
Cada pieza de evidencia screenshot ocupa más espacio en la base de datos porque siempre está acompañada del texto de las etiquetas. El aumento de espacio no es predecible, puesto que depende de la cantidad de capturas de pantalla obtenidas del agent y de la cantidad de palabras en cada screenshot.
El módulo OCR ocupa un gran porcentaje de CPU para convertir las capturas de pantalla, pero se ejecuta con una prioridad menor a la de otros procesos.
Por lo tanto, la carga del CPU solo se verá afectada cuando el sistema muestra el texto de la imagen convertida durante el análisis de la evidencia.
Es mejor instalarlo inmediatamente en las bases de datos shard y no en el Master Node, que ya está lleno de procesos.
Verifique cuánto tiempo demora en aparecer el texto en los detalles de esa evidencia particular y revise los tiempos registrados al obtener las imágenes. Si se estima que es excesivo y existe otro servidor que está libre (p. ej.: que hospeda a otra base de datos shard o Master Node) instale otro módulo OCR.
De esta forma se dividirá la carga de trabajo entre todos los módulos instalados.
Para instalar un módulo OCR en un entorno de back end:
Pasos | Resultado |
---|---|
1. Inserte el CD con el paquete de instalación. Ejecute el archivo RCS-ocr-version.exe que se encuentra en la carpeta x:\setup, aparecerá la primera ventana del asistente. 2. Haga clic en Siguiente. |
![]() |
3. Siga los pasos que se indican a continuación hasta que la instalación haya finalizado: el módulo comenzará a convertir las imágenes la primera vez que se reciba una evidencia de tipo screenshot. |
- |
Para comprobar si la conversión de la imagen a texto es demasiado lenta o no, vea cuánto se tarda en aparecer el botón en la página de detalles de la evidencia.
El módulo OCR se puede desinstalar desde el Dashboard de Windows.
NOTA: la desinstalación del módulo OCR no pone en riesgo al texto que ya se convirtió y etiquetó.
RCS9.3 | Guía del usuario | © COPYRIGHT 2014