El IIC y Garrigues colaboran para aplicar inteligencia artificial al sector legal

Funcionamiento del sistema Mapa del Expediente

En ámbitos donde se maneja gran cantidad de información en texto, como el legal, las técnicas de inteligencia artificial, y especialmente de Procesamiento del Lenguaje Natural (PLN), han demostrado ser útiles y eficaces para organizarla y consultarla más rápidamente.

Para aplicar los últimos avances al sector legal, surge la colaboración del Instituto de Ingeniería del Conocimiento (IIC) y Garrigues, que han puesto a prueba un nuevo sistema: Mapa del Expediente, orientado a la organización y el tratamiento de expedientes judiciales de gran volumen.

Este sistema de inteligencia artificial integra el primer modelo de lenguaje adaptado al dominio legal, también desarrollado desde el IIC sobre la base de una nueva metodología para reajustar modelos existentes y que funcionen mejor con dominios del lenguaje y terminologías específicos.

Organización y análisis de expedientes judiciales

Mapa del Expediente es un sistema capaz de procesar todo tipo de documentación asociada a un expediente judicial, normalmente de gran volumen, para organizarla, catalogarla y analizarla de forma automática.

Una vez recibida la información en forma de ficheros PDF, mediante técnicas de OCR (Optical Character Recognition), se transcriben y digitalizan todas las páginas del expediente y se divide el volumen en partes o documentos individuales. Estos se catalogarán automáticamente dependiendo del escrito del que se trate: partes, actas de declaración, cédulas de citación, diligencias, providencias o autos, entre otros.

De esta forma, el sistema permite a los usuarios consultar rápidamente la información relevante, pero también identificar a personas o empresas que aparecen mencionadas en los diferentes documentos y establecer una red de relaciones entre estas entidades. Una información que puede además visualizarse en forma de grafo, conformando un auténtico mapa para navegar por el expediente.

Primer modelo de lenguaje del español legal

Mapa del Expediente cuenta a su vez con el primer modelo de lenguaje en español adaptado al sector legal. Este ha sido creado por el IIC según una metodología propia que permite adaptar modelos ya existentes a diferentes dominios del lenguaje, como el que se habla y se escribe en el sector legal.

Un modelo de lenguaje es una red neuronal artificial capaz de analizar ingentes volúmenes de texto escrito para aprender la estructura de un determinado idioma. Son ya conocidos modelos generales como BERT o GPT-3, que sirven de base y se ajustan para resolver distintas tareas de PLN: clasificación de documentos, resumen o traducción automática, generación de textos, entre otras.

No obstante, estos modelos pueden no funcionar tan eficazmente cuando se encuentran con los términos y la jerga empleados en sectores especializados, como el médico, el financiero o el legal. De ahí el interés por crear un modelo de lenguaje específico para cada ámbito con la metodología mencionada.

En este caso, se ha partido de BETO, el modelo general del español desarrollado por la Universidad de Chile, que se ha reentrenado con un gran corpus legal-administrativo de más de 500 millones de palabras. Los textos han sido recopilados de fuentes abiertas y curados por el equipo de lingüistas computacionales del IIC, garantizando su calidad.

Tras esta adaptación, se obtiene el primer modelo del lenguaje del español legal: Legal-BETO. Adicionalmente, y en una segunda fase de adaptación en colaboración con Garrigues, se utilizaron datos de expedientes recopilados por este despacho de abogados para generar una versión todavía más específica del modelo de lenguaje, bautizada como Garrigues-BETO y que se incorpora al sistema Mapa del Expediente.

Resultados de Mapa del Expediente

Ya puesto en práctica con Garrigues, Mapa del Expediente demuestra las ventajas de contar con un modelo de lenguaje adaptado al dominio legal. En concreto, se ha probado con dos problemas concretos del sector: la clasificación de documentos y la detección de entidades nombradas en el texto (personas, organizaciones y localizaciones). Entre los resultados experimentales, se ha podido comprobar que el modelo Garrigues-BETO ofrece mejores resultados que el estado del arte en modelos de lenguaje en español.

Lawyerpress NEWS

Periodico Digital del Sector Legal

El IIC y Garrigues colaboran para aplicar inteligencia artificial al sector legal

Organización y análisis de expedientes judiciales

Primer modelo de lenguaje del español legal

Resultados de Mapa del Expediente

Comenta el articulo

El ICPM pide el aplazamiento de los señalamientos por la emergencia de los incendios

La Escuela de Práctica Jurídica de la Universidad Complutense supera los 1.000 alumnos

Fundación Legálitas y Fundación CEOE impulsan el asesoramiento legal preventivo

Andersen asesora a Obranueva.com en el desarrollo de 125 viviendas de alquiler asequible en Estepona por 43M€

Soriano i Piqueras estrena nueva web

Arriaga logra la máxima reducción posible de deuda con la Seguridad Social por la Ley de Segunda Oportunidad

Harvard y Women in a Legal World impulsan en América Latina un programa de liderazgo jurídico

La Abogacía granadina y Renta 4 Banco reafirman su alianza

La Abogacía Catalana valora como un paso importante la aprobación de la pasarela al RETA

JJpD Galicia ve corporativismo en el aval del CGPJ a los traslados forzosos de la Sala de lo Contencioso del TSX de Galicia

Cuando refinanciar solo compra tiempo

Cuando la extradición tiene fisuras que pueden cambiar el resultado

Reducir el absentismo laboral exige equilibrio, prevención y corresponsabilidad

La inteligencia artificial y el sector sanitario: protección de datos, riesgos y responsabilidades