Los títulos de estudios de BMJ generados por IA divierten, pero también podrían inspirar

febrero 6, 2022 htHenry

Un estudio publicado en la edición de Navidad de 2021 de The BMJ demuestra la capacidad de la IA para generar títulos plausibles, divertidos y científicamente interesantes para posibles artículos de investigación.

La edición navideña de The BMJ es, por tradición, una mezcla de contenido alegre combinado con una investigación rigurosa revisada por pares, con muchos artículos navideños entre los estudios más memorables de The BMJ. Por ejemplo, un artículo titulado ‘Los premios Darwin: la diferencia sexual en el comportamiento idiota’, publicado en el BMJ de Navidad de 2014, recibió más de 700.000 páginas impresas en solo 12 meses.

En la edición de este año, un estudio revisó la calidad de los títulos generados por IA de posibles artículos navideños de BMJ y descubrió que eran tan atractivos y entretenidos como los títulos reales, aunque el rendimiento de la IA mejoró con la intervención humana. El estudio, ‘Fantasma en la máquina o mono con una máquina de escribir: generación de títulos para artículos de investigación navideños en The BMJ usando inteligencia artificial: estudio observacional’, sugirió que la IA podría tener un papel en la generación de hipótesis o direcciones valiosas para futuras investigaciones.

Los investigadores utilizaron los títulos de los 13 artículos de investigación navideños más leídos de The BMJ de la última década como un conjunto de entrenamiento para generar títulos similares, utilizando GPT-3 de OpenAI. GPT-3 fue entrenado utilizando 175 mil millones de elementos de texto, incluida la totalidad de Wikipedia, y es capaz de generar grandes pasajes de texto legible. Los títulos generados por GPT-3 fueron calificados primero por mérito científico, valor de entretenimiento y plausibilidad por los dos autores de forma independiente.

A continuación, combinaron los 10 títulos generados por IA con la puntuación más alta y los 10 con la puntuación más baja con 10 artículos de investigación navideños reales para que los calificara una muestra aleatoria de 25 médicos de una variedad de especialidades en África, Australia y Europa. Calificaron cada artículo de acuerdo con cuatro afirmaciones: Este es un artículo real de BMJ; Quiero leer esto; Esto sería divertido/agradable de leer; y Esto sería científicamente/educativo útil. También se les pidió que seleccionaran qué título era más plausible en general y cuál era el más divertido.

Tal vez como era de esperar, los títulos generados por IA fueron calificados como menos plausibles que los reales (48 por ciento frente a 73 por ciento), aunque también fueron calificados como al menos tan divertidos y atractivos como los reales.

Los títulos generados por IA más plausibles fueron «La eficacia clínica de las piruletas como tratamiento para el dolor de garganta» y «Los efectos del café gourmet gratis en los tiempos de espera del departamento de emergencias: un estudio observacional». El título calificado como el más divertido fue ‘Superglue sus pezones y vea si le ayuda a dejar de angustiarse por la disfunción eréctil en el trabajo’. Los autores señalaron que este título ilustra una limitación de la IA; incapacidad para apreciar el contexto de un estudio y comprender si el contenido que genera puede ser ofensivo.

“Aunque los humanos pueden ver la aplicación en el mundo real de un estudio sobre la privación del sueño de los médicos sobre la mortalidad en la unidad de cuidados intensivos, la IA, con sus aportes, considera que esto no es más ni menos útil que comprender los efectos de aplicar superpegamento en los pezones como un distracción de la disfunción eréctil en el trabajo, ni puede entender si los títulos son ofensivos”, escribieron los autores.

En general, se calificó que los títulos generados por IA tenían menos mérito científico o educativo que los títulos reales (39 % frente a 58 %). Sin embargo, esta diferencia se redujo para volverse menos significativa cuando los humanos ayudaron a curar la salida de IA (49 por ciento frente a 58 por ciento).

Esta conclusión confirma investigaciones anteriores que sugerían que los mejores resultados se obtienen cuando el aprendizaje automático se asocia con la supervisión humana. Los autores reconocieron que la importancia de la intervención humana es “un hallazgo que refleja el uso potencial de la IA en la medicina clínica; como apoyo a la toma de decisiones, en lugar de reemplazar directamente a los médicos”.

Cualquiera puede intentar detectar la diferencia entre títulos reales y generados por IA con un juego presentado junto con el estudio en el sitio web de The BMJ.