Clasificación semiautomática de proyectos - Declaración de explicabilidad

1. Introducción

El Servicio de Información Comunitario sobre Investigación y Desarrollo (CORDIS) utiliza un sistema de clasificación semiautomática para categorizar los proyectos de investigación financiados con fondos europeos según sus respectivos ámbitos científicos. Este sistema, que aprovecha técnicas de inteligencia artificial (IA), en concreto el procesamiento del lenguaje natural (PLN) y el aprendizaje automático (AA), ayuda a los usuarios a encontrar rápidamente proyectos relacionados con áreas de investigación específicas. El sistema de clasificación utiliza la taxonomía del vocabulario científico europeo (EuroSciVoc), que organiza los ámbitos científicos de manera jerárquica. EuroSciVoc es una taxonomía plurilingüe que abarca más de mil ámbitos científicos, lo que la convierte en una herramienta esencial para investigadores, responsables políticos y otras partes interesadas que quieren estar al tanto de los últimos avances en ciencia y tecnología. Se anima a los periodistas científicos que escriben para CORDIS, a los beneficiarios de proyectos y a otros usuarios de CORDIS a verificar las clasificaciones y a enviarnos sus comentarios, de manera que el sistema de clasificación se pueda mejorar de forma continua.

2. Términos y definiciones

Término	Definición
Inteligencia artificial (IA)	Tecnología que permite a los ordenadores y las máquinas simular o imitar la inteligencia humana y las capacidades de resolución de problemas.
Modelo de clasificación	Tipo de modelo de aprendizaje automático que categoriza o clasifica datos en clases o etiquetas predefinidas. Recibe datos de entrada y predice a qué categoría o clase pertenecen.
Áreas de Investigación y Desarrollo (FoRD)	La clasificación de la OCDE desarrollada con fines de medición, basada principalmente en un enfoque de contenido, que sirve de base para EuroSciVoc.
Aprendizaje Automático (AA)	Tipo de IA que permite a las aplicaciones informáticas «aprender» de la práctica y la retroalimentación, mejorando su precisión en la predicción de resultados sin programación explícita.
Procesamiento del lenguaje natural (PLN)	Campo de la IA utilizado para analizar, comprender y procesar el lenguaje humano.
Organización para la Cooperación y el Desarrollo Económicos (OCDE)	Organización intergubernamental fundada en 1961 para promover el desarrollo económico y el comercio mundial.
Sistema de clasificación semiautomática (SCSA)	Programa utilizado en CORDIS para la clasificación de contenido y el mantenimiento de la taxonomía.
	Simple Knowledge Organisation System (SKOS)
Consorcio World Wide Web (W3C)	La principal organización internacional de normalización para la World Wide Web.

3. Información sobre proyectos de investigación financiados con fondos europeos en CORDIS

CORDIS proporciona información detallada sobre los proyectos de investigación financiados con fondos europeos, incluyendo objetivos, financiación, resultados y logros. Para gestionar el gran volumen y la complejidad de los temas de los proyectos, CORDIS utiliza un sistema de clasificación que emplea técnicas de IA, en concreto PLN y AA, para organizar el contenido según los ámbitos científicos que figuran en EuroSciVoc.

4. ¿Qué es la clasificación semiautomática de proyectos?

La clasificación semiautomática de proyectos es una función del programa de SCSA, que clasifica los proyectos de investigación financiados con fondos europeos aplicando la taxonomía de EuroSciVoc. El SCSA utiliza técnicas de IA, en concreto PLN y AA, para relacionar proyectos con los ámbitos científicos relevantes de EuroSciVoc. El objetivo es garantizar una clasificación eficiente de todos los proyectos en CORDIS. El sistema es «semiautomático» porque permite la intervención humana, incluida la validación de las clasificaciones y el mantenimiento de la taxonomía.

5. ¿Cómo funciona el proceso de clasificación?

El proceso de clasificación consta de dos etapas: la clasificación automática y la clasificación semiautomática, que es revisada por personas.

5.1. La clasificación automática

El programa de clasificación utiliza un modelo de clasificación entrenado con una muestra de descripciones de proyectos pertenecientesa una amplia variedad de ámbitos científicos. El modelo toma como entrada textos relacionados con el proyecto y proporciona como salida categorías e indicadores de calidad. Los pasos automatizados son:

Preprocesamiento: se reúnen los textos relacionados con el proyecto y se limpian de elementos innecesarios o disruptivos (etiquetas HTML, códigos de formato, espacios adicionales, saltos de línea, etc.).
Detección del ámbito: se identifica el ámbito científico general del contenido utilizando una herramienta integrada de PLN.
Colocaciones (combinaciones de palabras) y extracción de palabras clave: el texto se anota con una herramienta integrada de PLN para identificar palabras clave y colocaciones (palabras clave que aparecen juntas).
Clasificación: se utilizan reglas comerciales para ponderar las palabras clave y los ámbitos extraídos, clasificando las categorías por relevancia.
Selección y priorización de categorías: la lista clasificada de categorías se procesa utilizando una combinación de reglas comerciales y lógica jerárquica para seleccionar las categorías con las puntuaciones de relevancia combinadas más altas.
Asignación de categorías: de entre las categorías que superan el umbral mínimo de relevancia, se recomiendan las cinco mejor clasificadas para cada proyecto.

5.2. Revisión humana y muestreo

La clasificación de los proyectos es revisada parcialmente por personas. Para mantener la calidad y el rendimiento se utiliza un método de muestreo, que incluye:

Muestreo clásico (entrenamiento del modelo): El modelo de clasificación inicial se entrena con una muestra grande y representativa de proyectos, lo que proporciona una base de referencia para la precisión.
Muestreo oportunista (validación en curso): Se mantiene un conjunto de documentos validados, que consiste en un subconjunto seleccionado de documentos clasificados de forma manual. Las revisiones humanas respaldan el muestreo, proporcionando retroalimentación práctica y continua sobre los resultados del sistema. Esto se hace, por ejemplo, mediante:
- Periodistas científicos y beneficiarios de los proyectos, quienes son alentados a verificar las clasificaciones en la comunicación relacionada con la publicación de artículos sobre los proyectos.
- Usuarios registrados en el sitio web de CORDIS, que pueden proponer nuevas categorías a través de la función «Sugerir nuevos ámbitos científicos». Estas sugerencias son revisadas por el equipo de CORDIS. Los comentarios de los usuarios registrados en el sitio web de CORDIS se utilizan para validar las clasificaciones.

El «estado» de la clasificación es visible en la interfaz web para el usuario final, que verá una insignia verde en una clasificación validada por personas con el siguiente texto:

«CORDIS clasifica los proyectos con EuroSciVoc, una taxonomía plurilingüe de ámbitos científicos, mediante un proceso semiautomático basado en técnicas de procesamiento del lenguaje natural. La clasificación de este proyecto ha sido validada por personas».

En contraste, una sencilla información emergente azul indica que la clasificación no ha sido validada por personas.

6. ¿Qué datos se utilizan en la clasificación?

El proceso de clasificación utiliza datos disponibles públicamente en la plataforma de CORDIS, que incluyen:

Títulos y objetivos de los proyectos de investigación.
Informes resumidos sobre el progreso de los proyectos.
Palabras clave y categorías validadas de rondas de clasificación anteriores.

7. ¿Se utilizan datos personales en el proceso?

No, no se utilizan datos personales para entrenar o mejorar el sistema de clasificación.

8. Limitaciones actuales

La clasificación semiautomática está limitada por el alcance y la granularidad de EuroSciVoc.
La calidad de las sugerencias automáticas varía según la riqueza de la información disponible sobre el proyecto.
Debido al elevado volumen de proyectos (más de cuatrocientos al mes) y a la complejidad de la información relacionada, no todos los proyectos pueden ser revisados con rapidez por personas.

9. Cláusula de exención de responsabilidad - aspectos legales

El sistema de clasificación semiautomática de proyectos emplea PNL y AA. Se realiza de forma automática y es parcialmente revisado y validado por personas. A pesar de que se adoptan todas las medidas necesarias para asegurar la calidad del contenido, no se puede garantizar que sea completamente exacto. La clasificación se proporciona únicamente con fines informativos y no debe tomarse como referencia para fines específicos sin verificar antes su exactitud y exhaustividad.

La Oficina de Publicaciones de la Unión Europea y las instituciones de la UE quedan exentas de toda responsabilidad por los errores u omisiones en los resultados derivados del uso de herramientas y técnicas de clasificación de IA en CORDIS. No se asumirá responsabilidad alguna por las consecuencias derivadas de confiar únicamente en dicho contenido generado por IA. Se recomienda a los usuarios que utilicen el contenido con precaución y que actúen con la debida diligencia.