Hacer frente a los retos de la desinformación en línea
Transcripción generada por inteligencia artificial.
00:00:00:00 - 00:00:38:12
Abigail Acton
Esto es CORDIScovery. Hola, soy Abigail Acton. Bienvenidos a este episodio de CORDIScovery. ¿Recuerdas cuando podías navegar por internet con la seguridad de que lo que veías era probablemente verdad? ¿O será que ya me estoy haciendo mayor para estas cosas? Con el paso de los años, parece que la información es cada vez menos fiable, y con el contenido ultrafalso y el sesgo de los algoritmos, cada vez da más la impresión de que la desinformación en línea está por todas partes.
00:00:38:16 - 00:01:01:02
Abigail Acton
Identificar, rastrear e investigar la desinformación en línea, así como otros contenidos problemáticos, constituye una labor sumamente compleja. Esos contenidos pueden derivar en delitos de odio y otros actos de violencia, pero muchas autoridades policiales europeas no disponen de herramientas ni tecnologías especializadas para atajar este problema. ¿Cómo se les puede ayudar? Como usuarios, ¿cómo podemos saber si estamos siendo manipulados?
00:01:01:07 - 00:01:24:00
Abigail Acton
Cada vez estamos más expuestos a la desinformación en línea, ya sea de forma pasiva, a través de los contenidos de las redes sociales, o de forma activa, al usar buscadores y sitios web específicos que nos encaminan hacia páginas que refuerzan nuestros sesgos y levantan muros de prejuicio. Las empresas trabajan para identificar y eliminar sitios web de noticias falsas y reducir la difusión de desinformación en redes sociales. Pero ¿qué pasa con los buscadores?
00:01:24:05 - 00:01:48:14
Abigail Acton
¿Podrían los rastreadores web ofrecer una forma innovadora de ayudarnos a auditar su actividad? La difusión de desinformación en línea amenaza nuestros valores democráticos. A medida que aumenta la cantidad de desinformación, la inteligencia artificial (IA), y en concreto las tecnologías lingüísticas, tienen un papel importante a la hora de detectarla. El aprendizaje automático y la IA se basan en modelos lingüísticos de gran tamaño, pero ¿qué pasa con los idiomas que tienen menor presencia en internet, es decir, aquellos que se usan con menos frecuencia?
00:01:48:16 - 00:02:14:11
Abigail Acton
¿Cómo se puede mejorar la IA para luchar contra la desinformación en los llamados «idiomas con pocos recursos»? Para ayudarnos a navegar por este laberinto, hoy nos acompañan tres investigadores que han recibido financiación de la Unión Europea para sus proyectos científicos. Owen Conlan es miembro del Trinity College de Dublín y catedrático de la Facultad de Informática y Estadística. También es codirector del Centro de Humanidades Digitales del Trinity College.
00:02:14:13 - 00:02:20:13
Abigail Acton
Owen está muy interesado en el control que los usuarios pueden ejercer sobre los sistemas personalizados basados en IA. ¡Hola, Owen, bienvenido!
00:02:20:15 - 00:02:21:24
Owen Conlan
Hola, Abigail. Encantado de estar aquí.
00:02:22:02 - 00:02:42:03
Abigail Acton
Encantada de que nos acompañes. Joana Gonçalves-Sá es investigadora en el Laboratorio Nova de Informática y Ciencias de la Computación y en el Laboratorio de Instrumentación y Física Experimental de Partículas, en Lisboa, donde dirige el grupo de investigación sobre Física Social y Complejidad. Su investigación se centra en los sesgos humanos y algorítmicos, utilizando las noticias falsas como sistema modelo. Bienvenida, Joana.
00:02:42:09 - 00:02:43:19
Joana Gonçalves-Sá
Muchas gracias por invitarme.
00:02:43:21 - 00:02:59:08
Abigail Acton
Marián Šimko es investigador sénior en el Instituto Kempelen de Tecnologías Inteligentes de Eslovaquia. Su investigación se centra en el procesamiento del lenguaje natural, la extracción de información, el procesamiento de idiomas con pocos recursos y la interpretabilidad de modelos neuronales. Bienvenido, Marián.
00:02:59:10 - 00:03:00:18
Marián Šimko
¡Hola! Un placer estar aquí hoy.
00:03:00:22 - 00:03:18:18
Abigail Acton
Encantada de que nos acompañes. Owen, voy a empezar contigo. En el proyecto VIGILANT se están desarrollando una plataforma integrada, herramientas y tecnologías avanzadas para identificar y analizar desinformación con métodos de IA punteros. Owen, sé que tu trabajo se basa en la IA centrada en el ser humano, pero ¿podrías explicarnos a qué te refieres exactamente con ese término?
00:03:18:23 - 00:03:41:05
Owen Conlan
Sí, claro. La IA centrada en el ser humano trata de comprender la interacción simbiótica entre las personas y los sistemas de IA y, en esencia, permitir que todos nosotros, seres humanos y usuarios, podamos comprender cómo funciona un agente de IA trabaja para él. Y eso no es nada sencillo, pero tampoco quieres adentrarte en tecnicismos ni en los entresijos de algoritmos convolucionales y cosas por el estilo.
00:03:41:05 - 00:04:00:24
Owen Conlan
Eso no ayuda a nadie. Pero, por otro lado, no quieres que un agente de IA simplemente te dé la respuesta y se quede ahí, como una «caja negra». ¿Dónde está entonces el punto intermedio? Por eso, cuando utilizamos la expresión IA centrada en el ser humano, intentamos encontrar una forma personalizada para que el usuario pueda entender cómo un agente de IA trabaja para él.
00:04:01:05 - 00:04:23:16
Owen Conlan
Mostrar cuáles son las piezas clave de información que se utilizan para generar las respuestas, e ilustrar este proceso. Y para nosotros, cuando generamos respuestas, lo importante es destacar los contenidos verdaderamente problemáticos a los que el usuario debe prestar atención, ya sea para entender el contexto de una investigación o para identificar que se trata, posiblemente, de desinformación. Entonces, ¿cómo hacemos para que eso tenga sentido para el usuario?
00:04:23:19 - 00:04:36:05
Abigail Acton
Muy bien. Ha quedado muy claro. Gracias. Owen, sé que en el pasado trabajaste en el proyecto PROVENANCE, cuyo objetivo era ayudar a las personas a lidiar con estas complejidades. ¿Podría hablar de ello antes de que pasemos al proyecto VIGILANT?
00:04:36:07 - 00:05:15:21
Owen Conlan
Sí, claro. PROVENANCE estaba dirigido a usuarios corrientes, como tú y como yo, que navega por la web, sobre todo en las redes sociales, para intentar mostrar dónde ciertos elementos de los contenidos en las redes sociales pueden contener señales problemáticas. ¿Y a qué me refiero con señales problemáticas? Me refiero, por ejemplo, a un lenguaje muy emotivo utilizado en la presentación de algo que se presenta como noticia, o al uso de términos que sabemos que pueden resultar bastante polémicos y que quizás hacen referencia a distintos grupos sociales. También puede tratarse del uso de recursos multimedia que sabemos que se han empleado en otros contextos.
00:05:15:23 - 00:05:44:13
Owen Conlan
Otra parece estar siendo usada en un contexto muy diferente. Así que tenemos que tener mucho cuidado en esa situación, ya que no queremos afirmar que algo es una noticia falsa. Estamos intentando mostrar que puede haber problemas en la forma en que esto se está representado. Y, hasta cierto punto, dejarlo en manos del usuario. Ahora, eso solo funciona se va de la mano con ofrecer al usuario la capacidad de entender y aprender sobre la desinformación: por qué se difunde, qué tipos de tropos y mecanismos se usan para provocarnos.
00:05:44:15 - 00:06:22:04
Owen Conlan
Y, sobre todo, la desinformación suele responder a desencadenante emocionales muy intensos, que nos llevan a cambiar nuestras creencias, aunque sea de forma sutil, ya sea respecto a las vacunas, ciertas posturas políticas o temas similares. En PROVENANCE se analizó todo ello en profundidad, y una de las principales conclusiones fue el papel que juegan nuestros rasgos de personalidad en nuestra susceptibilidad a la desinformación. Además, también observamos cómo esos rasgos influyen en la forma en que podríamos diseñar intervenciones para que el usuario interactúe con esa información de manera controlada y comprensible.
00:06:22:04 - 00:06:44:02
Owen Conlan
Así que, no se trata solo de ver algo y creerlo, sino de verlo y empezar a preguntarse: ¿es esto real? Sin embargo, uno de los retos en todo esto es asegurarnos de que las personas puedan seguir aprendiendo que hay contenido en línea en el que sí se puede confiar. Porque si lo que hacemos lleva a que las personas a cuestionar todo de forma radical y no crear en nada, entonces todo se convierte en una conspiración y nadie podrá fiarse de ningún contenido en línea.
00:06:44:02 - 00:06:46:00
Owen Conlan
Así que hay que mantener un fino equilibrio.
00:06:46:05 - 00:07:02:13
Abigail Acton
Sí, eso está claro. Sí, por supuesto. Entiendo la lógica que hay detrás. Fantástico. Muy bien. Bueno, si ahora pasamos a VIGILANT, sé que este proyecto estaba más enfocado en proporcionar herramientas a las fuerzas y cuerpos de seguridad, que a partir de ahora llamaremos FCS. ¿Puedes contarnos más sobre qué tipo de herramientas se están desarrollando en el proyecto?
00:07:02:15 - 00:07:32:12
Owen Conlan
Sí, claro. Uno de los retos a los que se enfrentan los FCS es, para empezar, que, como todos nosotros, es la gran cantidad de contenido en línea, que dificulta determinar qué información puede ser problemática desde una perspectiva delictiva. Ahora bien, hay que ser muy cuidadosos en este sentido: no se trata de vigilancia masiva. Hablamos de situaciones en las que un ciudadano o, a través de alguna línea de investigación, se identifica un área concreta de contenido que pasa a estar bajo escrutinio por la sospecha de que puede haber algún tipo de actividad delictiva.
00:07:32:14 - 00:07:59:07
Owen Conlan
El tipo de actividad delictiva de la que hablamos suele estar relacionada con acciones extremistas: personas que intentan incitar a miembros de la sociedad a comportarse de manera delictiva o antisocial. Y esto ocurre en plataformas que todos usamos, quizá de forma inocente, pero que algunas personas emplean con fines menos benignos. Un buen ejemplo para ilustrarlo sería un grupo que difunde una afirmación falsa.
00:07:59:07 - 00:08:17:20
Owen Conlan
Y aquí es donde entra en juego la desinformación. Así que podría ser, por ejemplo, bueno esto es solo una situación hipotética. Por ejemplo, podrían alegar que se va a construir una mezquita en una zona muy sensible de La Ramblas. Así que, en función de esa afirmación y de la conversación en nuestro entorno, quizá solo se trataría de desinformación, que en sí misma no es ilegal.
00:08:17:22 - 00:08:42:01
Owen Conlan
Pero si las personas empiezan a movilizarse en torno a ella y a planear disturbios, entonces se convertiría en una actividad ilegal. Así que, las herramientas que ofrecemos a los policías están diseñadas para detectar áreas sospechosas y, al hacerlo, empezar a identificar y entender las emociones que se expresan. Y algo que nos ha resultado bastante curioso es ver que no siempre se trata de las emociones que uno esperaría. Por ejemplo, podríamos pensar que el odio es un claro indicador de un problema y, sin duda, lo es.
00:08:42:03 - 00:09:11:23
Owen Conlan
Pero la felicidad también puede serlo. Hay casos en los que se observa a miembros de un grupo mostrando entusiasmo o alegría justo antes de organizarse o de poner en marcha un plan. Nos fijamos en entidades lógicas, nombres, palabras clave, y también en las emociones, así como la relación entre todos esos elementos. Y buscamos representarlo visualmente, de modo que, con un simple vistazo, se pueda observar un canal de Telegram y detectar con rapidez los puntos críticos. Así, un policía puede enfocar su atención justo donde se necesita.
00:09:12:00 - 00:09:30:13
Abigail Acton
Entiendo. Excelente. Estupendo. Sí, lo entiendo. Seguramente se trata de una sensación de emoción, expectativa o incluso adrenalina, lo cual también puede ser una señal de alerta. Claro. Entonces, ¿cómo la policía, es decir, una persona frente a un ordenador tratando de decidir si debe desplegar recursos en algún lugar, cómo puede interpretar esta información?
00:09:30:15 - 00:09:52:09
Owen Conlan
Bueno, en primer lugar, se centran en la oportunidad, utilizamos una metáfora: la de un «nudo». La idea es deshacer ese nudo. Lo que hacen es importar diferentes fuentes de información, que luego se procesan para identificar lenguaje natural, entidades, emociones y otros elementos. Todo eso se representa gráficamente, tanto en líneas de tiempo como en niveles de intensidad.
00:09:52:15 - 00:09:57:10
Owen Conlan
Eso les permite identificar visualmente los puntos críticos, es decir, aquellas zonas donde coinciden todos esos factores.
00:09:57:12 - 00:10:04:15
Abigail Acton
Entiendo. De ese modo, pueden ver superposiciones que actúan como señales de alerta. Claro. Y cuando se acumula un cierto número de esas coincidencias, empieza a surgir la idea de que quizá se deba actuar.
00:10:04:17 - 00:10:06:21
Owen Conlan
Entonces se comienza a analizar el contenido con más detalle.
00:10:06:24 - 00:10:07:11
Abigail Acton
Entiendo.
00:10:07:12 - 00:10:16:08
Owen Conlan
Esto les permite llegar al quid de la cuestión y comprender lo que está ocurriendo, porque no queremos que sea un sistema de IA el que decida desplegar a la policía.
00:10:16:14 - 00:10:18:03
Abigail Acton
Claro.
00:10:18:05 - 00:10:25:03
Owen Conlan
Lo que queremos es que un sistema como este sirva de apoyo a una investigación detallada, para que luego se pueda determinar cómo usar mejor los recursos.
00:10:25:03 - 00:10:32:07
Abigail Acton
De hecho, se trata de una forma de filtrar una gran cantidad de datos para identificar cuáles son las fuentes que realmente se deben analizar más a fondo.
00:10:32:07 - 00:10:32:22
Owen Conlan
Así es.
00:10:32:24 - 00:10:35:13
Abigail Acton
Claro. Lo cual supone un grandísimo ahorro de tiempo.
00:10:35:19 - 00:10:56:15
Owen Conlan
Sí, ahorra muchísimo tiempo. Y también para entender cómo podrían desplegarse los recursos. Claro. Porque en Europa, cada país tiene un enfoque muy distinto sobre cómo funcionan sus cuerpos y fuerzas de seguridad. Por ejemplo, en Irlanda, nuestra policía se llama «An Garda Síochána», que significa «los guardianes de la paz», lo cual refleja muy bien la manera en que interactúan con la sociedad, entre otras cosas.
00:10:56:17 - 00:11:18:16
Owen Conlan
Y lo mismo ocurre en el entorno en línea. Por ejemplo, en Estonia cuentan con policías virtuales que patrullan el «territorio» digital. A veces eso significa llamar una puerta virtual y decir: «Este contenido no es ilegal, pero queremos que sepan que estamos aquí, presentes. Estamos, quiero decir, estamos aquí para asegurarnos de que todo siga en orden.
00:11:18:18 - 00:11:24:09
Owen Conlan
Claro. Así que, bueno, una herramienta como VIGILANT tiene que funcionar dentro de esos contextos tan diversos.
00:11:24:11 - 00:11:43:05
Abigail Acton
Sí, en efecto. Porque el enfoque varía mucho de un país a otro. Excelente. Muchísimas gracias. Muy bien explicado. Sé que también te interesa proporcionar herramientas y recursos a los responsables políticos. ¿Cómo crees que los recursos desarrollados en VIGILANT, el trabajo realizado en VIGILANT, contribuye a ello?
00:11:43:07 - 00:12:08:10
Owen Conlan
Sí, bueno, por un lado, son herramientas muy similares si en términos generales. Pero la manera en que se enfocan y el tipo de análisis y apoyo que brindan a los responsables políticos es bastante diferente. De hecho, estamos participando activamente en otro proyecto financiado con fondos europeos, Athena, que está centrado en Phoenix, un problema relacionado con la manipulación informativa y la injerencia desde terceros países. Y, de hecho, esto se parece un poco más a la vigilancia.
00:12:08:12 - 00:12:33:22
Owen Conlan
Así que, de la misma manera que no deberíamos vigilar a nuestras poblaciones en nuestros países, sí es aceptable vigilar, entre comillas, estas sitios informativos. Porque existen grandes «granjas» de desinformación, que generan una gran variedad de desinformación, muchas veces creado por IA, y que están tratando de ganar tracción. Eso se manifiesta en campañas, campañas diseñadas para desprestigiar a una personalidad política en particular, usando múltiples vías o estrategias para lograrlo.
00:12:33:22 - 00:12:54:24
Owen Conlan
Y, una vez que alguna de esas informaciones gana tracción, entonces comienzan a alimentar aún más esa narrativa. Lo que hace Athena, de manera similar a VIGILANT, es recopilar información de fuentes de ese tipo. Athena es menos selectiva porque no se centra en individuos, y aquí debemos ser muy cuidadosos con la información personal, pero igualmente reúne datos y produce infografías similares, entre otras cosas.
00:12:54:24 - 00:13:20:13
Owen Conlan
Esto sirve para tener una base de datos que fundamente la toma de decisiones políticas, acciones y intervenciones. Uno de los desafíos que solemos observar es que las campañas de ataque de Athena pueden surgir en contextos lingüísticos específicos. Por ejemplo, podría ocurrir en Grecia, en griego, y abordar problemas como aquellos relacionados con la migración, generando falsas afirmaciones para incitar a la población.
00:13:20:15 - 00:13:43:02
Owen Conlan
La forma en que las autoridades griegas reaccionan a esto es, en sí mismo, un aprendizaje. Si podemos combinar lo que se hizo frente a este problema emergente con una plataforma como Athena, y luego trasladar ese conocimiento a Italia cuando comencemos a ver un problema similar en italiano, aunque en un contexto político distinto, ¿qué podemos aprender de la respuesta griega en ese caso?
00:13:43:04 - 00:13:56:17
Owen Conlan
Europa es una mezcolanza compleja de países con muchos contextos culturales, idiomáticos, lingüísticos diferentes, pero podemos aprender de estos ataques y tratar de transferir ese conocimiento más allá de las fronteras.
00:13:56:19 - 00:14:15:18
Abigail Acton
Perfecto. Muchísimas gracias. Sí, así podremos aprender unos de otros. Muchísimas gracias. Muy bien. Joana, ahora es tu turno. Joana, en FARE_AUDIT se desarrolló un método para auditar los buscadores y analizar cómo el historial de navegación influye en los resultados que ofrecen, y cómo esto afecta la probabilidad de ser dirigido a fuentes de desinformación.
00:14:15:18 - 00:14:29:10
Abigail Acton
Así que hay cierto solapamiento con el trabajo que está realizando Owen. Joana, ¿podrías contarnos un poco sobre la relación entre el comportamiento humano y el sesgo? ¿Puedes explicarnos, por favor, cuál es la importancia del sesgo en el entorno en línea?
00:14:29:12 - 00:14:52:04
Joana Gonçalves-Sá
Sí. Bueno, estamos hablando de dos proyectos diferentes. En uno de ellos, lo que hicimos fue analizar cómo el sesgo humano o sesgo cognitivo puede favorecer la difusión de desinformación. Cada vez que nos encontramos con información en línea, debemos decidir si la creemos o no, y si queremos compartirla o no.
00:14:52:06 - 00:15:15:09
Joana Gonçalves-Sá
Y, tal como decía Owen, no podemos simplemente decidir no creer en nada y volvernos cínicos, ni tampoco creerlo todo y volvernos ingenuos. Así que, cada vez, tenemos que tomar una decisión. Y lo que creemos, nuestra hipótesis, es que esa decisión está influenciada por distintos sesgos cognitivos. Por ejemplo, si ya me encontré con esta información en el pasado y tiendo a creerla.
00:15:15:09 - 00:15:40:19
Joana Gonçalves-Sá
Entonces surge un sesgo de confirmación. Y me resulta más fácil creer en información que refuerza cosas que ya creo. Además, si mis amigos también tienden a creer en eso, probablemente esté influenciado por lo que se conoce como «sesgo de grupo», que me lleva a confiar más en lo que dice mi entorno cercano que en lo que dicen los expertos. Lo que hacemos es utilizar esa información como un sistema modelo, de la misma forma en que otros investigadores usan ratones en el laboratorio, para estudiar los sesgos cognitivos.
00:15:40:19 - 00:16:03:04
Joana Gonçalves-Sá
Y tratamos de entender cómo se propagan las influencias de estos distintos sesgos cognitivos. Experiencia, porque esto nos permite aprender sobre las ideas preconcebidas que tienen las personas sobre el mundo y sobre la manera en que deciden relacionarse con la sociedad. Es decir, lo abordamos desde otra perspectiva: no estudiamos la desinformación en sí, sino que usamos la desinformación como herramienta para estudiar los sesgos cognitivos.
00:16:03:09 - 00:16:25:01
Abigail Acton
Lo cual es genial. Eso es excelente, porque entender cómo funcionan los sesgos también nos muestra cómo las personas utilizan o se acercan a la información en línea. Las cámaras de eco, por ejemplo, se ven reforzadas por los algoritmos que usan los buscadores para dirigir cierta información al usuario. Por eso, debe de ser muy difícil para una persona identificar la desinformación. ¿Podrías contarnos un poco sobre qué se hizo en FARE_AUDIT en este ámbito?
00:16:25:07 - 00:16:50:08
Joana Gonçalves-Sá
Sí. La idea es que, precisamente porque es tan difícil identificar la desinformación, se han hecho grandes esfuerzos, sobre todo en el seguimiento de redes sociales. Sabemos que nuestros «feeds» están personalizados y que pueden aprovecharse de estos sesgos. Es como si fueran ellos los que plantan la desinformación deliberadamente. Saben que no somos agentes perfectamente racionales, y se valen de esos sesgos para amplificar su mensaje.
00:16:50:10 - 00:17:14:18
Joana Gonçalves-Sá
Se han llevado a cabo investigaciones muy importantes sobre las redes sociales, pero nosotros nos hemos centrado en otros dos medios de difusión de información que suelen pasar más desapercibidos. En concreto, los buscadores. Los buscadores se suelen ver como algo neutral, casi como una puerta de entrada a la verdad. Y las personas tienden a creer mucho en lo que ve cuando lo busca por sí misma.
00:17:14:18 - 00:17:40:09
Joana Gonçalves-Sá
Así que van, por ejemplo, alguien entra a Google, o a otro buscador— y busca algo. Y, por lo general, los resultados que aparecen en los primeros lugares se perciben como verdaderos. Pero, por supuesto, eso no siempre es así. Además, los buscadores personalizan lo que nos muestran en función de muchos factores, como nuestra ubicación, y, bueno, otras búsquedas anteriores o incluso nuestro historial de navegación.
00:17:40:11 - 00:17:58:00
Abigail Acton
¿Puedo preguntarte entonces qué se desarrolló en FARE_AUDIT para ayudar a las personas a reconocer que tal vez están siendo dirigidas en una dirección determinada? Tengo entendido que desarrollasteis una herramienta que podría ser útil, por ejemplo, para periodistas y organizaciones que vigilan el estado de la democracia, para rastrear desinformación. ¿Puedes hablarnos un poco más de ello?
00:17:58:01 - 00:18:18:07
Joana Gonçalves-Sá
Eso es. Lo que hicimos fue lo siguiente: dado que auditar los buscadores es muy difícil, y los algoritmos son propietarios y funcionan como cajas negras, y como tampoco queríamos depender de los datos de personas reales por razones de privacidad y por posibles sesgos en las muestras, desarrollamos un sistema de rastreadores web, comúnmente conocidos como «bots». Y lo que hace estos bots es imitar el comportamiento humano.
00:18:18:07 - 00:18:38:12
Joana Gonçalves-Sá
Así que tenemos un pequeño ejército de bots que navega por internet, recopilan «cookies» y se hacen pasar por personas. Podemos configurarlos para que aparenten ser usuarios de distintas ubicaciones, que hablan distintos idiomas e, incluso, con perfiles que simulan diferentes edades o géneros según su historial de navegación. Luego, estos bots acceden a los buscadores y hacen exactamente la misma búsqueda al mismo tiempo.
00:18:38:14 - 00:19:02:03
Joana Gonçalves-Sá
Lo que hacemos después es comparar los resultados que muestran los distintos buscadores ante una misma consulta. Y hemos llevado a cabo varios estudios utilizando esta misma metodología. Por ejemplo, uno de ellos analiza el conflicto actual entre Israel y Palestina, y en este caso los bots están ubicados en puntos cercanos a ambos lados de la frontera, haciendo exactamente las mismas búsquedas.
00:19:02:05 - 00:19:25:22
Joana Gonçalves-Sá
Y no solo observamos si los resultados son muy diferentes, sino también si muestran ciertas inclinaciones o sesgos particulares. Y en este caso en concreto, me parece interesante porque la ubicación suele considerarse un factor neutral en cuanto a la personalización. Si busco un restaurante cerca de mí, quiero el restaurante que está cerca de mí y no uno que esté muy, muy, muy lejos.
00:19:25:24 - 00:19:48:10
Joana Gonçalves-Sá
Pero cuando hablamos de un conflicto geopolítico, mostrar información diferente sobre la misma búsqueda a personas que viven en distintos países puede ser extremadamente problemático con estas dos auditorías: una durante las elecciones al Parlamento Europeo, en la que los bots ubicados en diferentes países europeos hacían preguntas como: «¿A quién debería votar?» o «¿Cuál es el mejor partido?».
00:19:48:12 - 00:20:10:11
Joana Gonçalves-Sá
También lo hicimos durante las elecciones presidenciales de Estados Unidos, las de 2024. Y pudimos comprobar lo fácil que es que consultas generales y aparentemente neutrales arrojen resultados muy, muy diferentes. Y, en este caso, sobre todo en el caso del Parlamento Europeo, por ejemplo, los resultados mostraban un sesgo muy marcado.
00:20:10:11 - 00:20:13:24
Abigail Acton
Ah, entonces sí que detectasteis sesgos evidentes. Sí, claro.
00:20:14:01 - 00:20:22:14
Joana Gonçalves-Sá
Definitivamente. Y seguro que podrías adivinar hacia qué lado, izquierda o derecha, mostraban ese sesgo.
00:20:22:20 - 00:20:29:10
Abigail Acton
Sí, Muy bien. Qué interesante. Un poco inquietante, ¿no? ¿Supongo que tus resultados también te parecieron, en cierta medida, perturbadores, no?
00:20:29:15 - 00:20:55:06
Joana Gonçalves-Sá
Sí, da miedo. Y, de hecho, encontramos sesgos bastante claros. No es muy común que se mencionen muchos de estos partidos, pero cada vez que se hace, pertenecen a una familia política concreta. Y el hecho de que estos buscadores sean tan usados y que tantos millones de personas recurran a ellos a diario hace que, incluso si los sesgos fueran pequeños o poco frecuentes, siga siendo preocupante, porque el mensaje puede amplificarse muchísimo.
00:20:55:08 - 00:21:24:09
Joana Gonçalves-Sá
Pero también está el hecho de que ahora contamos con esta herramienta, que puede ser utilizada por los investigadores. Pero también estamos intentando adaptarla para que también pueda ser usada por periodistas y por el público en general. Además, estamos colaborando con la Unión Europea en un proyecto preliminar en el marco de la Ley de Servicios Digitales, para auditar grandes buscadores en línea e intentar identificar sesgos, porque también es posible que estos buscadores estén siendo manipulados por actores políticos.
00:21:24:09 - 00:21:33:21
Joana Gonçalves-Sá
No es. Y están utilizando técnicas de optimización en buscadores u otros mecanismos para amplificar su mensaje, sin que siquiera los propios buscadores se den cuenta de que eso está ocurriendo.
00:21:33:21 - 00:21:44:23
Abigail Acton
Ah, entiendo. Así que es como si se colaran por un resquicio. Cielos, vaya... esto sí que es esclarecedor. Gracias. ¿Alguien tiene alguna pregunta u observación que hacer sobre fantástico trabajo de Joana? Sí, Owen, ¿qué te gustaría preguntar?
00:21:45:00 - 00:21:47:08
Owen Conlan
Sí, un trabajo realmente fantástico, Joana.
00:21:47:08 - 00:21:48:14
Abigail Acton
¿Verdad que sí?
00:21:48:16 - 00:22:12:05
Owen Conlan
¿Han considerado usar estos bots para analizar las respuestas generadas por IA que estamos empezando a ver ya en los buscadores? Sé que, por ejemplo, Google Search ya incluye una vista previa con IA en muchas respuestas. Creo que existe una gran posibilidad de sesgo y de guiar a las personas en una dirección concreta. Sería muy interesante ver cómo ajusta los resultados según la ubicación o su conocimiento sobre el usuario.
00:22:12:07 - 00:22:13:19
Owen Conlan
¿Es algo que te planteas investigar?
00:22:14:00 - 00:22:36:23
Joana Gonçalves-Sá
Sí, y muchas gracias por la pregunta. De hecho, también ejecutamos esta auditoría con modelos lingüísticos de gran tamaño, como ChatGPT y Copilot, y les planteamos preguntas similares: «¿Por quién debería votar?, ¿Cuáles son los mejores partidos?». Incluso introdujimos la variable de género, con preguntas del tipo: «Como mujer, ¿por quién debería votar?» o «Como hombre, ¿por quién debería votar?».
00:22:36:23 - 00:23:06:04
Joana Gonçalves-Sá
Y los resultados también mostraron un sesgo muy marcado en la misma dirección, que se acentúa aún más cuando introducimos la variable de género. ¿De acuerdo? En estos casos, fuimos directamente a las plataformas. Pero ahora, con la integración para que los buscadores formen parte de estas, herramientas, también podemos auditarlos directamente: tanto los resultados de búsqueda como los resúmenes que ofrecen y sus respuestas generadas por IA, para ver si los sesgos persisten, si se amplifican o, por el contrario, si han desaparecido o se han corregido.
00:23:06:06 - 00:23:31:05
Abigail Acton
Fantástico. Muchísimas gracias. Cielos, un trabajo muy exhaustivo. Parece casi una carrera, ¿no?, para tratar de mantener el ritmo y seguir ideando nuevas formas innovadoras para identificar la manipulación, al mismo ritmo al que aparecen nuevas maneras de manipular. Eso está muy bien. Muchísimas gracias. Marián, ahora es tu turno. Marián, el objetivo del proyecto DisAI, en Eslovaquia, era desarrollar tecnologías y herramientas de IA confiables para idiomas con pocos recursos.
00:23:31:05 - 00:23:45:05
Abigail Acton
Acabamos de hablar sobre modelos lingüísticos y demás. En este caso, el interés está en combatir la creciente amenaza de la desinformación en línea, quizá en idiomas que tienen una menor presencia. ¿Puedes contarnos qué te llevó a involucrarte en este tema en primer lugar? Marián.
00:23:45:07 - 00:24:15:08
Marián Šimko
Sí. Como investigador, me maravilla cómo la tecnología puede ayudarnos con la gran cantidad de tareas que hacemos a diario. La mayoría están relacionadas con diferentes formas de comunicación, que es algo muy propio de los seres humanos, y las técnicas y métodos del campo del procesamiento del lenguaje natural están diseñados para ayudarnos en esas rutinas cotidianas, ya sea buscando, comprendiendo, creando o transformando información.
00:24:15:10 - 00:24:39:18
Marián Šimko
Hoy en día tenemos aplicaciones de esta tecnología en nuestros bolsillos para, por ejemplo, al filtrar el correo no deseado, recomendarnos las noticias del día o mostrarnos reseñas breves de productos o servicios que queremos comprar. Creo que utilizar las tecnologías lingüísticas para procesar esta información es importante, y muy motivador, ya que lo hacemos para, con un fin social.
00:24:39:20 - 00:25:04:11
Marián Šimko
Y lo interesante aquí es que el fenómeno de la desinformación no es algo nuevo. De hecho, es tan antiguo como la humanidad misma. Pero lo que lo hace especial es el poder tecnológico que tenemos hoy en día, que amplifica sobremanera su repercusión. Me refiero a la cantidad de información, el acceso instantáneo, la velocidad con la que se propaga, el auge de IA generativa y la reducción de costes.
00:25:04:13 - 00:25:06:17
Marián Šimko
Así que, sí, eso es un problema.
00:25:06:17 - 00:25:26:14
Abigail Acton
Entiendo. Sí, claro. Hasta ahora hemos hablado de la capacidad de la IA para entender el lenguaje que se emplea para inundarnos con información. En DisAI se trabaja para también pueda funcionar con idiomas menos comunes. ¿Puedes contarnos un poco más sobre el trabajo de tu proyecto para tratar, como digo, emplear idiomas menos frecuentes?
00:25:26:18 - 00:25:53:10
Marián Šimko
Sí. Antes que nada, la calidad o el rendimiento de las nuevas aplicaciones recientes de procesamiento del lenguaje natural, que hoy en día utilizan ampliamente redes neuronales profundas, depende en gran medida de la cantidad de datos usados para su entrenamiento. Por ejemplo, los modelos lingüísticos de gran tamaño se entrenan leyendo enormes volúmenes de texto de internet y aprendiendo a predecir la siguiente palabra en una frase.
00:25:53:10 - 00:26:13:13
Marián Šimko
Por ejemplo, si tenemos «cielo», queremos adivinar «azul»: «El cielo es azul». Y estos modelos aprenden patrones, gramática y hechos tan solo intentando predecir la siguiente palabra una y otra vez. Esto es la base de muchos de los métodos más avanzados. Y, en esencia, sirve para cualquier tarea de procesamiento de lenguaje natural que tengamos por delante.
00:26:13:15 - 00:26:42:07
Marián Šimko
Y esto incluye la tarea con la que trabajamos en el proyecto DisAI, que está relacionada con el manejo de esta información. El problema surge cuando se trata de idiomas que se usan con menos frecuencia. Para esos idiomas no hay suficiente contenido que sirva como una base sólida para el modelo. Por eso, estos modelos pueden tener dificultades para comprender o generar textos coherentes.
00:26:42:09 - 00:27:00:22
Marián Šimko
La mayoría de los datos están en inglés, chino, español, etc., por lo que estos modelos funcionan mucho mejor con esos idiomas. Ello da lugar a un rendimiento desigual, y los hablantes de lenguas con pocos recursos reciben respuestas de peor calidad, de modo que la precisión y utilidad para esos idiomas es cada vez menor.
00:27:00:22 - 00:27:05:09
Abigail Acton
Entiendo. ¿Y qué labor se llevó a cabo en el proyecto DisAI para tratar de mejorar la situación?
00:27:05:09 - 00:27:35:00
Marián Šimko
Claro. Como resultado, nos centramos en los verificadores de hechos, quienes desempeñan un papel esencial en esta labor, así como en los usuarios convencionales que utilizan tecnología básica de procesamiento del lenguaje natural. Estas personas tienen más dificultades cuando trabajan con idiomas distintos al inglés, por ejemplo. Por ello, en el proyecto DisAI, nos dedicamos a desarrollar nuevos métodos para el procesamiento del lenguaje que puedan ayudar en este sentido.
00:27:35:00 - 00:27:58:07
Marián Šimko
De este modo, se puede mejorar el rendimiento en idiomas con pocos recursos. Y, claro, nuestra motivación es natural, nuestra lengua materna es el eslovaco, que es un claro ejemplo de idioma con pocos recursos. La difusión de información sigue siendo un problema importante en Eslovaquia. Y, al igual en otros países de Europa del Este, la democracia es, por así decirlo, más frágil aquí.
00:27:58:07 - 00:28:07:04
Marián Šimko
Por eso es importante mejorar esos métodos y facilitar el trabajo de los verificadores de hechos.
00:28:07:04 - 00:28:23:22
Abigail Acton
Sí, por supuesto. Tu trabajo es fundamental, no me cabe ninguna duda de ello. ¿Me podrías contar qué técnicas se han desarrollado en el proyecto para aborda este reto? Entiendo cuál es el objetivo y la motivación, pero me gustaría saber qué habéis logrado hasta el momento y qué queda por hacer.
00:28:24:01 - 00:28:46:21
Marián Šimko
Claro. Así que. Eso es. En DisAI, mi equipo y yo estamos trabajando en desarrollar métodos, técnicas y herramientas que faciliten el trabajo de los verificadores de hechos. En su labor, hay distintas tareas que pueden beneficiarse del uso de tecnologías del lenguaje. En nuestro caso, nos centramos sobre en lo que se denomina «tarea de recuperación de afirmaciones para la verificación». Esta es una de las cuatro o cinco tareas más importantes dentro del proceso.
00:28:46:23 - 00:29:19:02
Marián Šimko
En pocas palabras, cuando un verificador de hechos se encuentra con una afirmación nueva, por ejemplo, que las vacunas modifican el ADN humano, lo primero que quiere saber es si alguien más ya la ha verificado antes o por lo menos puede ayudarles significativamente, porque crear una verificación desde cero es un proceso bastante exigente. Por eso, es útil poder revisar en todos los idiomas si esa afirmación ya fue verificada previamente por alguien más, incluso en portugués o indonesio.
00:29:19:02 - 00:29:25:05
Marián Šimko
Y esto puede reducir de forma considerable el trabajo que dedican a elaborar las verificaciones de hechos.
00:29:25:07 - 00:29:33:12
Abigail Acton
Muy bien. Es un buen ejemplo. Muchísimas gracias por la explicación. Fantástico. Muy bien. Bien explicado Marián, gracias. ¿Alguien tiene alguna observación o comentario para Marián? Sí, Owen, por favor.
00:29:33:14 - 00:29:55:11
Owen Conlan
Marián, este es un trabajo fundamental. Lo vemos continuamente en nuestros intentos de combatir la desinformación. La falta de conjuntos de datos en diferentes contextos lingüísticos es un gran obstáculo. De hecho, para nosotros, por supuesto, y para la policía, esto representa un desafío enorme, porque muchas veces tienen que hacer frente a desinformación en idiomas que no hablan, o en lenguas que están poco representadas en los conjuntos de datos disponibles.
00:29:55:17 - 00:30:15:24
Owen Conlan
Un área en la que hace poco constatamos un problema particular fue encontrar conjuntos de datos sobre discursos de odio en alemán. Y uno podría pensar que eso debería ser algo más o menos fácil, pero en realidad depende mucho de dónde se centra la atención. Y de si hay investigadores trabajando en esos contextos lingüísticos. Por eso, tratamos de traducir discursos de odio del inglés al alemán.
00:30:15:24 - 00:30:36:21
Owen Conlan
Y como te podrás imaginar, no salió muy bien. Incluso con cosas simples, como los juegos de palabras. Por ejemplo, expresiones como «Kill-ary Clinton», que en inglés tiene una clara carga de odio y resulta comprensible en ese idioma, no se pueden traducir de forma adecuada. Hay demasiados aspectos ligados al contexto cultural y lingüístico. Por eso este trabajo es esencial.
00:30:36:23 - 00:30:57:13
Abigail Acton
El trabajo de todos vosotros es absolutamente fundamental. Ha sido un verdadero placer escucharos, saber en qué habéis trabajado y todo lo que habéis logrado hasta ahora. Y, por supuesto, como he dicho antes, esto es un esfuerzo continuo, una carrera constante contra las técnicas de desinformación con las que se nos bombardea. Así que muchas gracias por ello y por el trabajo que lleváis a cabo.
00:30:57:14 - 00:31:02:14
Abigail Acton
Para intentar ayudarnos e iluminar un poco nuestras vidas en línea. Muchísimas gracias.
00:31:02:16 - 00:31:03:16
Joana Gonçalves-Sá
Gracias por invitarnos.
00:31:03:17 - 00:31:04:09
Marián Šimko
Gracias.
00:31:04:13 - 00:31:36:15
Abigail Acton
Ha sido un placer. De nada. Adiós. Cuidaros. Si te ha gustado este pódcast, síguenos en Spotify y Apple Podcasts y consulta la página de inicio del pódcast en el sitio web de CORDIS. Suscríbete para estar al día de las últimas investigaciones científicas financiadas con fondos europeos. Y si has disfrutado escuchándolo, ¿por qué no corres la voz? Hemos hablado de cómo nuestro intestino influye en nuestro cerebro, de la última tecnología que está ayudando a la criminología a investigar casos de violación y de cómo hacer aterrizar una sonda en un asteroide.
00:31:36:17 - 00:32:04:19
Abigail Acton
Seguro que encontrarás algo que pique tu curiosidad en alguno de nuestros cuarenta y siete episodios anteriores. Quizá quieras saber qué hacen otros proyectos financiados con fondos europeos para luchar contra la desinformación en línea. La página web de CORDIS te permitirá conocer los resultados de los proyectos financiados por Horizonte 2020 y Horizonte Europa que trabajan en este ámbito. El sitio web contiene artículos y entrevistas que examinan los resultados de las investigaciones que se están llevando a cabo en una amplísima variedad de ámbitos y temas, desde los dodos a los neutrinos.
00:32:04:23 - 00:32:29:10
Abigail Acton
Tal vez haya algo que te interese. Quizá participes en un proyecto o quieras solicitar financiación. Échale un vistazo a lo que hacen otros en tu ámbito. Ven y descubre las investigaciones que desvelan lo que mantiene en marcha nuestro mundo. Estaremos encantados de recibir tu opinión. Escríbenos a editorial@cordis.europa.eu. Hasta la próxima.
Los últimos avances en la difícil tarea de detectar y contrarrestar la desinformación en línea
Los contenidos pueden dar lugar a delitos de odio y otros tipos de violencia, pero muchas autoridades policiales europeas no tienen acceso a herramientas o tecnologías especializadas que les ayuden a atajar el problema: ¿cómo se les puede ayudar? Como usuarios, ¿cómo podemos saber si estamos siendo manipulados? Cada vez estamos más expuestos a la (des)información en línea, ya sea de forma pasiva, a través de los contenidos de las redes sociales, o de forma activa, al usar buscadores y sitios web específicos que nos encaminan hacia páginas que refuerzan nuestros sesgos y levantan muros de prejuicio. Las empresas trabajan para identificar y eliminar sitios web de noticias falsas y reducir la difusión de desinformación en redes sociales. Pero ¿qué pasa con los buscadores? ¿Podrían los rastreadores web ofrecer una forma innovadora de ayudarnos a auditar su actividad? La difusión de desinformación en línea amenaza nuestros valores democráticos. A medida que aumenta la cantidad de desinformación, la inteligencia artificial (IA), y en concreto las tecnologías lingüísticas, tienen un papel importante a la hora de detectarla. El aprendizaje automático y la IA se basan en modelos lingüísticos de gran tamaño, pero ¿qué pasa con los idiomas que tienen menor presencia en internet, es decir, aquellos que se usan con menos frecuencia? ¿Cómo se puede mejorar la IA para luchar contra la desinformación en los llamados «idiomas con pocos recursos»? Continúe escuchando para conocer cómo se están abordando estas y otras ciberamenazas con la ayuda de la financiación para investigación de la Unión Europea. Owen Conlan(se abrirá en una nueva ventana), es miembro del Trinity College(se abrirá en una nueva ventana), en Dublín, y catedrático en la Facultad de Informática y Estadística(se abrirá en una nueva ventana). También es el codirector del Centro de Humanidades Digitales del Trinity College(se abrirá en una nueva ventana). Owen está muy interesado en el control que los usuarios pueden ejercer sobre los sistemas personalizados basados en IA, un tema que investigó a través del proyecto VIGILANT. Joana Gonçalves-Sá(se abrirá en una nueva ventana) es investigadora en el Laboratorio Nova de Informática y Ciencias de la Computación(se abrirá en una nueva ventana) y en el Laboratorio de Instrumentación y Física Experimental de Partículas(se abrirá en una nueva ventana), en Lisboa, donde dirige el grupo de investigación sobre Física Social y Complejidad. Su trabajo se centra en los sesgos humanos y algorítmicos, utilizando las noticias falsas como sistema modelo, tema de su proyecto FARE_AUDIT. Marián Šimko(se abrirá en una nueva ventana) es investigador sénior en el Instituto Kempelen de Tecnologías Inteligentes(se abrirá en una nueva ventana) de Eslovaquia. Su investigación se centra en el procesamiento del lenguaje natural, la extracción de información, el procesamiento de idiomas con pocos recursos y la interpretabilidad de modelos neuronales. En el proyecto DisAI abordó el desarrollo de nuevos métodos de procesamiento lingüístico, con el objetivo de mejorar el rendimiento de los grandes modelos de aprendizaje automático para idiomas que se utilizan con menor frecuencia.
¡Estaremos encantados de recibir su opinión!
Si quiere compartir con nosotros su opinión, ¡estaremos encantados! Puede enviarnos cualquier comentario, pregunta o sugerencia a editorial@cordis.europa.eu.