Analizan 20 mil documentos de la dictadura con un software desarrollado por expertos en computación

Con un programa de reconocimiento óptico de caracteres y autocorrección creado a medida, especialistas procesan un lote de registros conservados en el Archivo Provincial de la Memoria. La iniciativa, pionera en Argentina, apunta a extraer información de personas, lugares y fechas para facilitar su sistematización y el establecimiento de relaciones en la búsqueda de datos que permitan clarificar los delitos de lesa humanidad cometidos en los centros clandestinos de detención. Los resultados pueden aportar pruebas en los Juicios por la Verdad que se desarrollan en distintas provincias. [20.08.2014]

Por Leandro Groshaus

Redacción UNCiencia
Prosecretaría de Comunicación Institucional – UNC
lgroshaus@unc.edu.ar

En Córdoba, el Archivo Provincial de la Memoria tiene en guarda aproximadamente cuatro millones de documentos vinculados a la actuación de fuerzas de seguridad y Grupos de Tareas del terrorismo de Estado durante el último gobierno de facto en el distrito provincial. De ese total, su área de Informática ya digitalizó –escaneó y guardó como imagen– 1,2 millones de registros.

El desafío es extraer, de todo ese material, información de personas, ubicaciones y fechas, e intentar establecer conexiones entre los datos para conocer la verdad sobre los delitos de lesa humanidad cometidos en los centros clandestinos de detención durante la última dictadura militar. Este tipo de información resulta de vital interés ya que pueden aportar pruebas en los juicios que se vienen desarrollando en distintas provincias de Argentina.

Notas vinculadas
Una experiencia novedosa

“En ese punto entramos nosotros”, comenta Paula Estrella, integrante del grupo de Procesamiento de Lenguaje Natural, de la Facultad de Matemática, Astronomía y Física – Universidad Nacional de Córdoba. Ella dirige actualmente un equipo abocado a delinear una herramienta informática que procese toda esa documentación digitalizada. En esta primera etapa piloto, trabajan con un lote de 20 mil documentos.

La labor consiste en someter cada documento a un programa de reconocimiento óptico de caracteres (OCR) y autocorrección diseñado a medida. Así se genera una versión del documento con texto seleccionable, un requisito excluyente para poder efectuar búsquedas dentro de su contenido. Durante el proceso, el software analiza la diferencia entre las palabras reconstruidas a partir de la imagen y una base de datos personalizada del idioma –generada por el equipo de investigación– para realizar una corrección automática.

Uno de los aspectos fundamentales de la iniciativa es la generación de diccionarios específicos para cada tipo de documentos, de manera que se puedan reconocer adecuadamente expresiones propias de actas, legajos, inventarios y otros tipos de documentos.

El proceso se completa con el reconocimiento de entidades nombradas, es decir, la identificación y clasificación de menciones a personas, organizaciones, lugares y fechas en textos de lenguaje natural.

La tarea no es fácil. “El estado de conservación y el género de los documentos es muy complejo: hay muchísimos nombres, modismos y alias que no necesariamente podemos diferenciar de cualquier otra palabra. A su vez, la gran variedad de información que se encuentra en los documentos –que pueden abarcar desde inventario de muebles o instrumentos de oficina hasta traslado de prisioneros o legajos de integrantes de fuerzas de seguridad–, complejiza el trabajo, ya que requiere de la confección de diccionarios específicos para cada lote de documentos”, explica Estrella.

Cabe destacar que parte del acervo fotográfico del Archivo Provincial de la Memoria, consiste en planos de cuerpo entero (frente y perfil) de personas detenidas, cada una de las cuales se encuentra identificada mediante un código numérico particular. En este contexto, el desafío es lograr que el software detecte y reconozca esta tipología de documentos, con el propósito de indexarlos correctamente.

A futuro, una segunda etapa implicará identificar conexiones entre los datos relevados, un paso que permitirá establecer, por ejemplo, los vínculos de distinto tipo entre personas, la pertenencia de un individuo a una organización o su presencia en determinado lugar. De esa forma será posible establecer relaciones y trayectorias: por ejemplo, tomar el número de legajo de un detenido y efectuar una búsqueda en todos los documentos y reconstruir a partir de los resultados una línea de tiempo.

Por el tipo de documentos con el que se trabaja, la labor tiene una complicación anexa: la imposibilidad de aplicar un proceso de corrección colaborativo. Esta modalidad consiste en poner el documento a disposición de una comunidad abierta, donde cada miembro puede hacer un aporte. No obstante, la sensibilidad de los datos con los que se trabaja impide que pueda aplicarse en este caso.

El reconocimiento óptico de caracteres (OCR) y el desarrollo del software de corrección automática de documentos es desarrollado por el estudiante Pablo Paliza, en el marco de su tesis de grado de la carrera de Licenciatura en Ciencias de la Computación, de la Facultad de Matemática, Astronomía y Física de la UNC.

Una experiencia novedosa

Para Marcelo Yornet, coordinador del área de Informática del Archivo Provincial de la Memoria, la cooperación con la UNC es novedosa en varios sentidos. “En primer lugar, nos permite cortar con una lógica histórica de que el sector público no tiene la capacidad ni la infraestructura informática para el procesamiento y búsqueda de información que tiene el sector privado. Por dar un ejemplo, un supermercado tiene mejor infraestructura y soporte informático que gran parte de las oficinas estatales. Este trabajo busca revertir eso y poder acercar las necesidades concretas de búsqueda de información que tenemos en el Archivo a través de herramientas modernas, de última tecnología”, apunta.

Si bien reconoce que las herramientas están en una etapa de prueba, subraya que ya están aportando “un conocimiento mucho más fino» de los 20 mil documentos con los que se está trabajando.

“Si logramos hacerlo funcionar en los grandes volúmenes de archivos que tenemos, estamos hablando de la posibilidad de obtener una gran cantidad de información y eso nos acercará mucho más a la verdad reciente. Hay un galpón lleno de papeles y en uno de esos papeles está la clave para conocer quiénes fueron responsables de delitos, qué pasó con el destino de las víctimas y muchas preguntas más que es necesario conocer. Esta experiencia es pionera en el país, no existe hoy un proyecto de estas características que muestre el nivel de avance que estamos logrando aquí”, completa Yornet.

Recursos | Descargar las fotografías en alta resolución

Buscar en UNCiencia

Analizan 20 mil documentos de la dictadura con un software desarrollado por expertos en computación

Una experiencia novedosa

Notas relacionadas