Discriminación 2.0: Sesgo de género en Inteligencia Artificial

Los modelos de Inteligencia Artificial se encuentran determinados y atravesados por diversos sesgos que reproducen (e, incluso, amplifican) relaciones de poder que subyacen en la realidad. Entendido como ese conjunto de suposiciones que efectuamos al momento de comenzar nuestro análisis, el sesgo puede estar en las limitaciones que tiene nuestro algoritmo, en las preguntas que nos hacemos, en los datos que tomamos como set de entrenamiento, en cómo validamos el modelo y cómo lo comunicamos.

En Inteligencia Artificial no intentamos programar a partir de reglas explícitas y conocidas, sino que buscamos explicar determinadas cuestiones a partir de datos o evidencias. Algunas técnicas simplifican esa lógica, en pos de ganar poder de generalización, esto es, tratan de aplicar hipótesis a una población nueva, que desconocemos. En esa simplificación aparecen algunas barreras éticas por encima, discriminando a los individuos por su condición de pertenencia a un grupo que ya estaba discriminado previamente. El peligro aquí radica en el poder de reproducción que tiene el mundo digital, permitiendo que se masifique un set de reglas discriminatorias e injustas preexistentes: se reproducen y se replican lógicas discriminatorias que ya existían. Tal es el caso del sesgo de género.

Hace unos pocos años, especialistas en Procesamiento de Lenguaje Natural -PLN, la rama de la Inteligencia Artificial que estudia el lenguaje- confeccionaron un mapa de relaciones entre palabras a partir de miles de millones de textos. Este ejercicio permitió -entre otras cosas- llevar las palabras a un espacio vectorial y luego medir la distancia entre cualquier par de palabras, insumo muy útil para aplicaciones de machine learning que se basan en el lenguaje. Recurriendo a esa red se pueden inducir relaciones como:

Hasta aquí, ningún problema. Sin embargo, ese mismo modelo también responde cosas como:

El espacio de word embeddings replicó los estereotipos de género presentes en la sociedad. De manera análoga a lo que nos pasa a nosotros con la ‘parcialidad implícita’, los modelos de lenguaje inducen las reglas implícitas en el inconsciente social, lo mismo le sucedió a los modelos de lenguaje, quienes inducen las reglas implícitas en el inconsciente social.

Ante este escenario, la pregunta que surge es qué pasaría en un equipo integrado 100% por mujeres, ¿diseñarían modelos de IA menos discriminatorios? Es muy probable.

Antes de sacar a la calle cualquier sistema, el mismo se testea. Y, si bien los más importantes obviamente son los test de validación, antes de llegar a esa instancia los sistemas se prueban internamente entre los mismos integrantes del equipo: “¿qué película me recomendaría a mí?” “¿cómo detecta mi rostro?”. Entonces, si hay más mujeres en el diseño de un modelo de Inteligencia Artificial, sin duda se reducirá la posibilidad de que aparezcan, en el marco del funcionamiento del sistema, lógicas de discriminación de género.

Si como programador no se está atento a considerar a las minorías, se pasa por alto la presencia de estos grupos y no se los incluye. En ocasiones, más que una cuestión de pertenecer a un género o a otro, a una determinada raza u a otra, se trata de tener una cierta sensibilidad de las minorías. Ese compromiso lo asumimos en 7Puentes, como empresa involucrada directamente con la automatización de tareas de nuestros clientes, a través del desarrollo de modelos de IA.

La IA será tan sexista y racista como las sociedades de las que aprende. Si no nos damos cuenta, lo que haremos será diseñar mecanismos que reproduzcan y amplifiquen en el mundo digital las injusticias at eternum. La responsabilidad de los que diseñamos Inteligencia Artificial es preguntarnos si un modelo no está reproduciendo una lógica de poder que queremos cambiar. Evitemos, entonces, ocultar supuestos discriminatorios bajo la fachada de algoritmos supuestamente justo y honestos.