Digital Skills Institute
< Artículos seleccionados

ChatGPT discrimina por raza y género según el nombre de usuario en el 0,1% de las interacciones

Un estudio de OpenAI muestra que ChatGPT exhibe sesgos mínimos en interacciones basadas en nombres, destacando mejoras con modelos más recientes. Se enfatiza la importancia de abordar los sesgos en IA. Artículo publicado en technologyreview.es y recomendado por Digital Skills Institute el 25 de marzo de 2025.

Un reciente estudio realizado por OpenAI revela que el popular chatbot ChatGPT ha mostrado sesgos asociados a nombres que reflejan posiciones raciales o de género en una fracción mínima de sus interacciones. Aunque estos sesgos parecen insignificantes en términos numéricos, siendo de entre el 0,1% y el 1% de los casos, el volumen de usuarios, que alcanza los 200 millones semanales, magnifica el posible impacto de estas respuestas sesgadas. Este fenómeno se observa a pesar de los esfuerzos constantes por refinar y mejorar los modelos lingüísticos subyacentes a los chatbots.

El problema de los sesgos en los modelos de inteligencia artificial (IA) no es nuevo para los especialistas en ética y tecnología. Históricamente, se ha prestado mucha atención a cómo los modelos sesgados pueden influir en áreas críticas, como la revisión de currículums o la evaluación de solicitudes de préstamos. Estos casos reflejan lo que OpenAI denomina "imparcialidad en tercera persona", donde los sistemas de IA exhiben preferencias al evaluar datos creados por los usuarios. El auge de los chatbots introduce un nuevo matiz a la discusión, pues ahora las interacciones son personales y directas, cuestionando la imparcialidad en "primera persona".

Alex Beutel y Adam Kalai, investigadores de OpenAI, han centrado sus esfuerzos en esta nueva dimensión de imparcialidad. La evaluación del impacto del conocimiento del nombre del usuario por parte de ChatGPT fue central en su investigación. Descubrieron que, en ocasiones, las respuestas del chatbot a peticiones dirigidas con nombres podían diferir significativamente, siendo influenciadas por las percepciones culturales sobre el género o la raza que dichos nombres podrían señalar. Este sesgo, aunque menor en frecuencia, puede dar lugar a que el modelo perpetúe estereotipos históricos, como se evidenció cuando ciertos nombres generaban distintas sugerencias para actividades en sectores educativos o tecnológicos.

OpenAI utilizó un distintivo enfoque analítico para evaluar estos patrones de conversación, implementando un modelo lingüístico dedicado a la investigación (LMRA) que les permitió examinar grandes volúmenes de interacciones reales sin comprometer la privacidad de los datos. Una revelación notable del estudio fue que los modelos más actuales, como GPT-4o, presentan una reducción significativa en la frecuencia de sesgos cuando se compara con versiones anteriores, como GPT-3.5 Turbo, destacando una mejora en su capacidad para mitigar estereotipos perjudiciales.

No obstante, las estrategias de aprendizaje utilizadas en el desarrollo de estas IA, como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF), también podrían contribuir a la manifestación de sesgos. Este proceso incentiva a los modelos a responder de manera que maximice su utilidad percibida por el usuario, lo que puede dar pie a inferencias inapropiadas basadas en los datos limitados del usuario, como es un nombre.

En respuesta a estas preocupaciones, OpenAI ha expresado su intención de profundizar en su análisis, considerando una gama más amplia de características del usuario, como opiniones religiosas, políticas, preferencias personales y orientaciones sexuales. A través de esta ampliación, buscan ofrecer un entendimiento completo sobre cómo múltiples atributos del usuario pueden influir en las respuestas generadas por modelos de IA.

El investigador Vishal Mirza de la Universidad de Nueva York subrayó la importancia de abordar la cuestión del sesgo de manera más holística y advirtió contra la simplificación del problema en términos de primera y tercera persona, afirmando que ambos tipos de imparcialidad están interrelacionados en aplicaciones del mundo real. Además, sugirió que el enfoque exclusivo en los nombres podría subestimar la amplitud del problema del sesgo en los modelos de IA. Mirza ha identificado en su propio trabajo sesgos significativos en modelos de empresas líderes como OpenAI, Google y Meta, indicando la necesidad de esfuerzos continuos para abordar estos desafíos complejos en sistemas de IA emergentes.

Estos hallazgos subrayan la importancia de comprender y mitigar los sesgos en sistemas de inteligencia artificial, no solo atendiendo al componente técnico, sino también considerando las implicaciones sociales y éticas más amplias que pueden surgir de su uso en aplicaciones cotidianas. La transparencia en la investigación y la colaboración entre organizaciones son pasos cruciales para garantizar que los avances en inteligencia artificial beneficien a toda la sociedad, evitando la perpetuación de inequidades existentes.

Leer en technologyreview.es
¡Participa en la conversación!

Otros artículos relacionados