Bouverot. A et al., Institut Montaigne, Rapport, mars 2020, 108 p.
Les algorithmes de machine learning ne pourraient apprendre et décider qu’à partir de données produites par les humains et converties dans des formats numériques. Il peut s’agir de « données relationnelles provenant de réseaux sociaux, des comportements d’achats utilisés à des fins marketing, des préférences musicales extraites des plateformes de streaming, des vidéos et photos postées sur internet, des SMS échangés, des historiques de recherches sur Google, des décisions en matière de recrutement ou d’octroi de crédit… etc. ».
Avec le développement des capteurs et de l’internet des objets, de plus en plus de données fines sont collectées (maison et enceintes connectées, applications mobiles de santé, de vacances, de loisirs…etc.). Les algorithmes qui apprendront sur ces données et leurs biais auront « une capacité à standardiser et amplifier des discriminations si nous ne sommes pas vigilants ».
Le biais d’un algorithme est « l’écart moyen entre sa prédiction et la valeur que l’on cherchait à prédire. Concrètement, cela peut être l’écart entre le nombre d’images radios étiquetées par l’algorithme comme comportant une tumeur et le nombre d’images radios comportant réellement une tumeur. Un fort biais signifie que l’algorithme manque de relations pertinentes entre données d’entrée et de sortie pour effectuer des prédictions correctes ».
Les biais des algorithmes vont au-delà des biais techniques. L’algorithme peut être très performant techniquement « tout en étant biaisé d’un point de vue social. Ces biais sont condamnés comme des discriminations, car ils sélectionnent et arbitrent souvent en défaveur de populations déjà défavorisées. Ces biais de société sont en fait la reproduction via l’algorithme, de biais déjà présents au sein de la société ».
Les biais techniques réduisent la performance de l’algorithme et entravent la réalisation de son objectif. « Réduire les biais techniques a un coût, mais également souvent un bénéfice clair pour le développeur. A contrario, suivre les biais de société permet à l’algorithme d’être plus performant ».
Les biais des algorithmes peuvent aussi être des décisions conscientes visant à soutenir une stratégie d’entreprise. Ainsi, « Google a été condamné à une amende de 2,4 milliards d’euros pour avoir favorisé ses propres produits dans les résultats de recherche de Google Shopping au détriment de ses concurrents. L’algorithme était donc volontairement biaisé ».
La source de biais techniques la plus commune reste la qualité des données d’apprentissage, qui peut induire des biais dans les bases de données. C’est ce biais qui est à l’oeuvre quand on entraîne l’algorithme sur des données dites « biaisées ».
Plusieurs biais de nos sociétés peuvent être encodés dans les données utilisées par les algorithmes. La psychologie distingue deux types de biais venant distordre nos décisions : les biais émotionnels (ou affectifs), et les biais cognitifs (notamment des stéréotypes). En effet, « tandis que les biais émotionnels nous amènent à refuser de croire en des réalités désagréables, les stéréotypes reviennent à traiter une personne selon le groupe auquel elle appartient (et les traits que l’on associe avec ce groupe), plutôt que sur ses caractéristiques individuelles ».
Les algorithmes ont également été à plusieurs reprises accusés de répandre des stéréotypes, notamment à l’encontre de l’égalité entre les hommes et les femmes. Par exemple, «les femmes ont tendance à répondre seulement à des offres d’emploi qu’elles pensent avoir une très forte probabilité de décrocher, et orientent ainsi les offres que les algorithmes leur présentent ».
Les stéréotypes viennent nourrir et biaiser les algorithmes, notamment ceux qui recommandent des offres d’emploi.
Au-delà des biais cognitifs et affectifs, les biais économiques forment un autre type de biais présent dans la société. « Un algorithme peut contenir un biais volontairement ou involontairement pour des raisons de stratégie commerciale. Un algorithme qui optimise simplement le rapport coût-efficacité de la diffusion d’offres d’emploi affiche moins d’annonces destinées aux femmes jeunes qu’aux hommes jeunes ».
Au-delà de l’efficacité, l’on définit usuellement trois qualités dont peuvent être dotés les algorithmes : l’équité, bien sûr, mais également la neutralité et la loyauté. Chacune peut constituer une garantie partielle contre les biais algorithmiques.
Or, ces trois qualités font toutefois l’objet de définitions multiples selon le contexte dans lequel l’algorithme va être utilisé, mais également selon l’environnement culturel.
Par ailleurs, affirmer qu’un algorithme est équitable reste complexe. En effet, « l’objectivité des critères utilisés par l’algorithme dans son fonctionnement est difficile à garantir. Un algorithme cherche à prendre (ou à aider) des décisions sur la base de critères pertinents. Mais ces critères ne sont pas toujours directement mesurables : on ne peut directement mesurer l’intelligence, le potentiel ou la curiosité d’un lycéen ou d’une lycéenne. On se repose donc sur des caractéristiques mesurables, qui sont forcément des approximations des critères que l’on souhaite réellement prendre en compte ».
Un algorithme de prise de décision ou d’aide à la décision optimise un résultat en fonction de données d’entrée et d’un objectif. La définition de cet objectif est le coeur de l’algorithme. Cette optimisation est rarement faite sans imposer des contraintes à l’algorithme, des «barrières » à ne pas dépasser.
La neutralité d’un algorithme consiste à assurer que celui-ci donne une représentation fidèle de la réalité, identique à celle-ci : les décisions de l’algorithme doivent correspondre à la réalité.
Le concept de loyauté se réfère, lui, à l’utilisateur. Il s’agit pour un algorithme de « respecter non pas la réalité, mais les attentes des utilisateurs et consommateurs de l’algorithme (différentes de celles du concepteur) ».