Ce chapitre distingue les intelligences individuelle, collective et artificielle, car (i) l'intelligence collective est (plus que) la somme d'intelligences individuelles, et (ii) l'intelligence artificielle, telle qu'elle a été développée jusqu'à aujourd'hui, est une technologie d'intelligence collective dans la mesure où elle repose sur l'exploitation de données produites par la collectivité humaine.
Il est également utile de distinguer les notions de :
les techniques naturelles le font sans transformer l'environnement, et par conséquent minimisent l'énergie "consommée" (en fait transformée), ce qui minimise la production anthropique de chaleur (cf. les premier et second principes de la thermodynamique : allocation-universelle.net/thermodynamique#energie-principes);
les techniques artificielles, encore appelées technologies, le font au moyen de machines (avions, ordinateurs, bases de données, ...), fabriquées par le conditionnement (travail) de matières premières (capital), ce qui requiert de transformer beaucoup d'énergie, et donc de produire beaucoup de chaleur.
La relation de causalité n'est pas toujours dans le sens théorie (fondamentale) ⇒ technologies. Ainsi c'est la création, par essais-erreurs, de la machine à vapeur (18° siècle) qui a induit le développement d'un corpus théorique dénommé "thermodynamique" (19° siècle).
Les îles situées à l'intérieur du « triangle polynésien » forment la Polynésie (1 : Hawaï ; 2 : Nouvelle-Zélande ; 3 : Île de Pâques ; 4 : Samoa ; 5 : Tahiti) [source].
Par exemple, la géolocalisation est une technique qui peut être appliquée :
naturellement, à l'instar des populations indigènes de Polynésie pour se déplacer entre îles, en observant les positions des étoiles, la direction du vent et des courants, ...) ;
La dynamique du progrès est très différente entre :
d'une part, les techniques naturelles utilisées par l'ensemble des organismes vivants, dont le progrès résulte du phénomène lent qu'est l'évolution, qui produit des techniques extrêmement efficaces en terme de consommation énergétique ;
d'autre part, les techniques artificielles des humains, qui progressent beaucoup plus vite, mais au prix d'une énorme consommation d'énergie, et donc de production de chaleur.
L'intelligence est ce qui permet la science et les techniques, celles-ci étant l'expression de celle-là.
Soulignons enfin la relation, potentiellement vertueuse, entre intelligence collective (IC) et intelligence artificielle (IA). En effet, l'IA est fondée sur le "big data", c-à-d une quantité phénoménale de créations humaines numérisées (textes, sons, images). Et par là même, l'IA stimule l'émergence, et donc l'IC, et d'autant plus que l'IA est accessible aussi bien aux scientiques qu'à Mr et Mme Toulemonde.
Il en résulte une dynamique en boucle rétroactive entre IC et IA :
Partant de l'hypothèse que l'intelligence existe en tant que caractéristique propre aux organismes vivants, nous entendons par "intelligence individuelle", l'intelligence d'un organisme biologique. Nous nous intéressons ici en particulier à l'intelligence individuelle des humains.
L’épistémologue Jean Piaget, fondateur du structuralisme génétique et spécialiste de l’apprentissage, disait que « l’intelligence, ça n’est pas ce que l’on sait, mais ce que l’on fait quand on ne sait pas ».
1. Composantes quantitativesOn peut distinguer deux types de composantes quantitatives de l'intelligence, consistant en la capacité de traitements des informations, et pouvant être mesurées objectivement par :
Ces capacités de traitement de données ne sont pas typiquement humaines puisqu'elles sont également (i) reproductibles par des machines (qui peuvent dépasser les capacités humaines en la matière), et (ii) observées chez les animaux (avec des performances généralement inférieures à celles des humains).
Dans tout système "intelligent" (biologique ou électronique), ces deux capacités sont précédées par la perception & collecte de données brutes, puis se concluent par la phase de représentation des données traitées, et de leur interprétation.
Il y donc, entre l'étape initiale de perception des données brutes et l'étape finale d'interprétation de leur représentation, une série de phases intermédiaires, qui peuvent biaiser les données, quantitativement (ex. : pertes de mémoire) et qualitativement (ex. erreurs de calcul).
Questionnement : qu'est-ce qui distingue la représentation de l'interprétation ? Pour répondre à cette question il faudra commencer par déterminer comment l'une et l'autre fonctionnent.
Les différences individuelles apparaissent notamment au niveau de l'accumulation des informations avec le temps. Ainsi pour Landemore, le concept de sagesse est plus riche que celui d’intelligence, puisqu’il recouvre les notions d’expérience, de connaissance éprouvée par le temps et, de façon plus générale, celle d’intelligence diachronique [source]. Cependant avec la vieillesse, la vitesse de traitement des données tend à baisser.
L'analyse quantitative doit être complétée par un volet qualitatif, si l'on veut cerner l'intelligence dans toute la subtilité et diversité que l'on constate chez les humains ...
Dans la section précédente nous avons souligné le fait que les composantes quantitatives de l'intelligence se retrouve aussi bien chez les humains que dans l'IA. Il y a cependant une différence de nature dans leur fonctionnement : alors que les capacités quantitatives des ordinateurs sont mesurées en termes binaires, celle des humains sont plutôt d'ordre analogique.
L'unité logique des logiciels d'un ordinateur est le byte (noté B ou o), soit huit bits (noté b). Un bit est une unité qui peut prendre deux valeurs : 1 (présence de courant électrique) ou 0 (absence de courant électrique). Ainsi dans un ordinateur, les capacités de stockage sont mesurées en bytes, et la vitesse de calcul en bytes/seconde.
Il y a donc une différence de nature entre systèmes biologique et électronique. Alors que dans ce dernier les données sont échangées uniquement via des signaux électriques, chez les organismes biologiques, les signaux électriques peuvent être combinés à des signaux chimiques (cf. clipedia-txt.net/biologie#systeme-nerveux-cerveau), ce qui augmente considérablement les potentialités des systèmes biologiques, en termes de fonctionnalités et de performance, ... par unité d'énergie consommée.
Dans la section consacrée consacrée à l'IA, nous verrons que l'efficacité énergétique des humains est très supérieure à celle des ordinateurs, ce qui conduit les ingénieurs à concevoir des ordinateurs biologiques, composés de cellules biologiques ...
Parmi les composantes qualitatives de l'intelligence, on peut distinguer :
l'intelligence critique, relevant de la capacité à évaluer la qualité d'une information (est-elle vraie ou fausse ? ; est-elle baisée ? ; la différence entre la réalité et sa représentation est-elle fortuite ou intentionnelle ? ; ... ;
Les machines sont capables d'imiter ces capacités, ce qui est déjà pas mal, et d'autant plus lorsqu'il y a amplification de la capacité. Par "imiter", nous entendons ici l'absence de conscience, d'intentionnalité ou encore d'éthique. Nous postulerons ainsi que, contrairement à la réaction, la proaction est le résultat d'une volonté, laquelle requiert une conscience : proaction ⇐ volonté ⇐ conscience.
« La conscience est un concept complexe et multifacette qui fait référence à la capacité d'un être vivant, en particulier l'être humain, à percevoir, à ressentir, à avoir une compréhension de soi-même et du monde qui l'entoure. C'est l'état mental de veille et d'auto-observation qui nous permet de penser, de ressentir, de réfléchir, de prendre des décisions et d'interagir avec notre environnement. La conscience englobe la perception sensorielle, la réflexion, l'émotion, la mémoire, la pensée, et d'autres processus cognitifs » [chatGPT, nov. 2023].
Ces propositions composites suscitent la question de la relation entre intelligence (I) et conscience (C) :
Le philosophie et physicien Dominique Lambert, en énonçant des capacités supposées distinguer l'humain des autres animaux (et des robots), suggère une forte intrication entre conscience et intelligence. Ainsi selon lui, l'humain serait particulièrement efficace dans sa capacité à :
Lambert cite cet élément dans le cadre d'une argumentation contre l'abandon de nos décisions à des systèmes d'intelligence artificielle (notamment dans la justice) qui, par nature, ne seraient pas capables de reproduire cette capacité.
Dans son roman "Pantagruel" écrit en 1532, François Rabelais fait dire à Gargantua écrivant à son fils Pantagruel : « science sans conscience n’est que ruine de l’âme », distinguant ainsi le savoir de l'utilisation qu'on en fait.
Sur base des définition énoncées dans la section #composantes-qualitatives, on pourrait proposer que : « l'intelligence sans émotion ni empathie et bienveillance, n'est que ruine de l'âme », et ainsi souligner le rôle et l'importance de la composante qualitative de l'intelligence.
L'avertissement que nous adresse Rabelais suggère implicitement la notion de responsabilité, ce qui conduit à d'autre notions, telles que le libre arbitre et la volonté.
Une expérience réalisée en 1983 par Benjamin Libet montre que l’activation cérébrale (supposée inconsciente) précède la décision consciente. Dans une autre expérience réalisée en 2008 par Chun Siong Soon l'activation cérébrale est observée jusqu'à 10 secondes avant la décision consciente, et en outre l'observation des zones cérébrales activées permet dans 60% des cas de prédire correctement le type de décision que l'individu observé prendra. En 2011, utilisant une autre technologie Itzhak Fried obtient un taux de prédiction correcte de 80%, 700 millisecondes avant la décision consciente [source]. Doit-on en déduire que le libre-arbitre ne serait qu'une illusion rétrospective sur nos actes ? Ne serions-nous que des feuilles balancées par le vent du déterminisme ?
Résultat de l'expérience de Libet
Quelques questionnement et faits viennent tempérer une éventuelle réponse affirmative à ces questions :
L'activation neuronale précédant la décision n'est-elle pas déterminée par la participation volontaire de l'individu à l'expérience ?
Si nous subissons, en provenance de notre environnement, des influences dont nous n'avons pas nécessairement conscience, il demeure que c'est justement le laps de temps entre intention/volonté et décision qui permet éventuellement à l'individu de ne pas passer à l'acte. Ainsi la conscience est liée à la réflexion, laquelle procède selon un mécanisme de boucle de rétroaction et d'inférence bayésienne [source].
Le phénomène étudié dans les expériences mentionnées ci-dessus ne doit pas être confondu avec le réflexe, qui est une réaction musculaire stéréotypée et très rapide à un stimulus, sans intervention du cerveau et de la volonté consciente
Des expériences ont montré que les individus qui croient dans le déterminisme de l'être humain, ont plus tendance à se comporter de façon malhonnête que des individus croyant dans leur libre arbitre. Ainsi, fondée ou non, la croyance dans le libre-arbitre présente l'avantage d'être socialement éthique.
Les individus n'étant généralement pas conscient de leurs biais cognitifs, l'interaction avec des systèmes intelligents peut aider à faire émerger ces biais dans la conscience. C'est incontestablement une prouesse de l'intelligence humaine que de concevoir de tels outils.
Perception et conscience (2020, 2m22s)
Axel Cleeremans est professeur de psychologie cognitive à l'Université Libre de Bruxelles.
Pourrait-on fabriquer des machines conscientes ? Oui affirme la théorie computationnaliste, à l'instar du psychologue Philip Johnson-Laird qui énonce les conditions suffisantes à vérifier pour créer des ordinateurs conscients [source : « A computational analysis of consciousness » 1988]. Au contraire, le mathématicien Roger Penrose soutient que les ordinateurs, considérés comme des machines de Turing ou des systèmes formels, sont fondamentalement dans l'incapacité de modéliser l'intelligence et la conscience. Les ordinateurs étant des systèmes déterministes, ils sont soumis aux limitations des systèmes formels, par exemple l'insolvabilité du problème de l'arrêt ou le théorème d'incomplétude de Gödel. Selon Penrose, l'esprit d'un authentique mathématicien est capable de surmonter ces limitations, car il a la capacité de s'extraire au besoin du système formel dans lequel il raisonne, quel que soit celui-ci [source].
Notre capacité de raisonnement est fondée sur une capacité à synthétiser une problématique c-à-d à identifier les facteurs explicatifs d'un phénomène, puis à décrire leur relations, sous forme d'un modèle.
Une méthode de modélisation est la théorie des graphes, dont des applications peuvent prendre la forme d'algorithmes.
La capacité d'abstraction, dont le langage mathématique est une expression, constitue une déterminant majeur de la capacité analytique des humains, laquelle est constamment augmentée par l'extension du langage mathématique aux processus informatiques, permettant ainsi le traitement de données en quantités et vitesses phénoménales.
Python est un langage très populaire pour coder des algorithmes.
Ces capacités d'abstraction de l'intelligence humaine ne se retrouvent pas (ou à des ordres de grandeur très inférieurs) chez les animaux. Par contre, les ordinateurs surpassent généralement les capacités d'abstraction des humains. Ainsi par exemple, notre capacité à interpréter la notion mathématique d'espace s'effondre à partir de la dimension 3 (qui est celle de notre environnement physique), alors que la limite des ordinateurs se situe à un ordre de grandeur très supérieur (et rapidement croissant, grâce au progrès technologique).
L'analogie est une autre capacité fondamentale de l'intelligence.
Un exemple d'analogie est « abc est à abd ce que pqr est à ... ? », dont une notation mathématique est abc:abd :: pqr:?
Une problématique fondamentale de la dynamique cognitive est que le scientifique ne peut totalement s'extraire des phénomènes qu'il étudie, ce qui peut biaiser ses analyses, notamment en influençant les données brutes, ou encore via l'interprétation qu'il fait des phénomènes observés. La méthode scientifique vise à minimiser ces biais, et plus généralement à rationaliser l'étude des phénomènes naturels. Elle s'inscrit dans un cycle rétroactif composé de quatre phases : observation --> théorisation --> prédiction --> expérimentation --> observation.
La liste qui suit, non exhaustive, énonce des notions qui composent la méthode scientifique :
Il n'y a évidemment aucune raison pour que la rationalité ne soit appliquée que dans le domaine scientifique. Il est dans l'intérêt de tout individu d'appliquer les principes ci-dessus, notamment dans la gestion de projets, ou encore dans ses relations avec autrui. C'est pourquoi la méthode scientifique devrait faire partie de la formation de base universelle.
Déduction vs induction
La déduction consiste à tirer des conclusions logiques à partir de prémisses données, tandis que l'induction consiste à généraliser à partir d'observations spécifiques pour tirer des conclusions plus larges.
En matière de déduction, les humains ont historiquement montré une grande habileté, en particulier dans des domaines tels que la logique formelle, les mathématiques et la résolution de problèmes. Les compétences en déduction des humains peuvent être très développées et peuvent rivaliser efficacement avec celles des systèmes d'IA, en particulier dans les domaines où la compréhension conceptuelle et la manipulation symbolique sont importantes.
En revanche, en matière d'induction, les systèmes d'IA ont souvent un avantage significatif en raison de leur capacité à traiter de grandes quantités de données et à identifier des modèles complexes. Les algorithmes d'apprentissage machine et d'apprentissage profond sont capables d'apprendre à partir de vastes ensembles de données pour faire des prédictions et prendre des décisions dans des domaines tels que la reconnaissance de motifs, la classification, la prédiction et bien d'autres.
Selon le physicien François Roddier, « Pris isolément, tout animal cherche à maximiser ses chances de survie (de dissiper de l’énergie). Pour cela, il répond à des stimuli (informations venant de l’environnement) en déclenchant des actions appropriées (travail mécanique). Le comportement le plus intelligent est celui qui déclenche le plus rapidement les actions les mieux appropriées » [source].
L'intelligence apparaît ainsi comme une capacité à comprendre notre environnement et à y déterminer l’action à réaliser pour optimiser des "conditions de vie" – le "bien-être" pour les économistes – tout en minimisant la consommation d'énergie.
La notion de compréhension est ici fondamentale. Elle induit la relation conscience ⇒ volonté ⇒ proaction, qui ne se réduit pas à la simple la capacité d'adaptation, également observée chez les corps inertes (matière non vivante). Ainsi les solides se dilatent à la chaleur, les liquides prennent la forme de leur conteneur, etc. Il n'y a pas là d'intentionnalité, mais simple réaction plutôt que proaction.
À supposer évidemment que l'intentionnalité ne soit pas une illusion ...
En toile de fond de cette dynamique conduisant du savoir à l'action, il y a l'apprentissage.
Bak et Stassinopoulos ont conçu un modèle de l'apprentissage, qui a été expérimenté en proposant un jeu à un singe : lorsque le voyant est vert il doit appuyer sur la pédale de droite, et quand il est rouge sur la pédale de gauche. À chaque réussite il reçoit une récompense (une cacahuète). Au début, la distribution des résultats est aléatoire, mais progressivement elle se rapproche de 100% d'essais réussis : l'apprentissage est alors réalisé. Le graphique suivant permet d'expliquer le mécanisme de cet apprentissage. Chaque essai correspond à un chemin entre la perception de la couleur et l'action qu'elle provoque (ou pas). Les connexions neuronales des chemins correspondant à des essais réussis serait progressivement renforcées (on dit que leur seuil est abaissé) tandis que les chemins correspondant à des essais ratés seraient progressivement inhibée (seuil renforcé) [source].
François Rodier propose une intéressante analyse thermodynamique de ce modèle. Elle repose sur le principe du cycle convectif.
Cycle convectif
Que se passe-t-il dans la casserole ?
Le modèle de cerveau de Bak et Stassinopoulos ci-dessus reçoit de l’information (Q2) de l’environnement sur lequel il agit (W=Q1-Q2) de façon à obtenir de l’énergie (Q1). Ainsi, à l'instar d'une machine thermique, ce modèle repose sur deux entrées et une sortie : l'une des entrées correspond aux calories apportées sous forme de nourriture (et correspond à l'apport de calories de la source chaude d'une machine thermique, c-à-d à une entrée d'entropie), tandis que l'autre entrée correspond à un apport d'information (et correspond à la source froide de la machine thermique, c-à-d à une sortie d'entropie).
Lorsqu'un neurone reçoit des signaux d'autres cellules il se charge électroniquement. Lorsque la charge dépasse un certain seuil le neurone est excité et transmet l'information à d'autres neurones. On observe alors des avalanches d'excitations. Les neurones excités (cercles gris) forment des domaines d'Ising d'autant plus étendus que les seuils sont faibles. (c-à-d que "les barrières sont basses"). La probabilité pour qu'un de ces domaines connecte les neurones sensoriels (ligne d'entrée dans le haut du graphique) aux neurones moteurs (ligne de sortie dans le bas du graphique) s'obtient en résolvant un problème mathématique dit de percolation [source p. 89-90].
François Roddier souligne que le modèle de Stassinopoulos et Bak relève de l'auto-organisation, et que celle-ci procède à l’aide d’oscillations de part et d'autre d’un point critique, seuil de percolation. Deux paramètres sont impliqués :
Le graphique ci-contre expose la dynamique entre seuils et intensités, au regard du cycle diurne du cerveau.
Ces deux paramètres oscillent au voisinage d'un point critique de sorte que l'apport énergétique est maximisé (cf. les cacahuètes qui récompensent les essais réussis du singe). Ces oscillations sont très utiles car, si trop de neurones moteurs sont excités, la valeur des seuils sera augmentée, et inversement (ainsi pour réfléchir, le cerveau doit être dans un état entre le sommeil et l'hyperactivité) Les fluctuations aléatoires permettent que le système ne reste pas piégé dans un optimum secondaire (cf. les oscillations de la température dans l'algorithme de recuit simulé, ou encore les équilibres ponctués en biologie) [source p. 89-90].
Roddier souligne que le modèle de Bak et Stassinopoulos permet d'expliquer :
Cycle diurne du cerveau
Le physicien François Roddier note l'analogie entre l'activité cyclique du cerveau telle que mesurée par électro-encéphalogramme (ondes thêta, bêta, alpha et delta), et le cycle convectif, ou encore le cycle des saisons [source].
Cerveau | Convectif | Saison |
---|---|---|
Sommeil paradoxal (θ : 4-8Hz) | Réchauffement | Hiver (germination) |
Réflexion (β : 15-30Hz) | Ascension (extension) | Printemps (croissance) |
Méditation (α : 9-14Hz) | Refroidissement | Été (apogée) |
Sommeil profond (δ : 1-3Hz) | Descente (compression) | Automne (régression) |
Conclusion importante : ces faits suggèrent que l'apprentissage n'est pas lié à la conscience. Nous verrons d'ailleurs que l'IA peut "apprendre".
Selon l'état actuel des connaissances, le cerveau serait le siège de l'intelligence. Les neurones, connectés en un vaste réseau par des axones, communiquent entre eux au moyen d'une combinaison de messages chimiques (les neurotransmetteurs) et de signaux électriques (les potentiels d'action).
Voir aussi : https://clipedia-txt.net/biologie#systeme-nerveux-cerveau
La plasticité cérébrale, c-à-d la capacité du cerveau à s'adapter et à changer en réponse à l'expérience et à l'apprentissage repose notamment sur la capacité des synapses (les connexions entre les neurones) à être modifiées en fonction de l'activité neuronale. Ainsi l'apprentissage et la mémorisation sont associés à des changements dans la force des synapses : lorsqu'une synapse est régulièrement utilisée, elle peut renforcer sa connexion (potentiation synaptique), tandis que l'inactivité peut entraîner une affaiblissement de la connexion (dépression synaptique).
Les recherches sur les fondements biologiques de l'intelligence reposent notamment sur la distinction entre savoir routinier (inconscient) vs non routinier (conscient), ou encore entre savoir inné et acquis.
Concernant la mémoire, depuis le début des années 1970 et les études menées chez l’humain après des traumatismes cérébraux, on fait la distinction entre deux types de mémoire. La mémoire sémantique, qui est la mémoire factuelle de toutes les connaissances que nous avons sur le monde qui nous entoure, et la mémoire dite “épisodique”, qui est la mémoire des événements personnellement vécus et ancrés dans un contexte spatio-temporel. C’est cette mémoire épisodique qui est par exemple défaillante chez les personnes atteintes de la maladie d’Alzheimer [source].
Tout propriétaire d'un animal domestique peut constater que les animaux partagent avec l'homme la souffrance et le plaisir psychique. L'animal est donc un être sensible. Mais ce n'est pas tout. Des expériences suggèrent que les animaux sont capables d'inventer, de se projeter dans l'avenir, de comportements altruistes, d'éprouver un sens de la justice [source], ou encore de pratiquer l'humour (sous forme de jeux, tels que surprendre par derrière, voire simuler la colère) [source].
Se basant sur l'observation de différences de mode de vie entre entre groupes d'une même espèce, certains scientifiques parlent de "cultures animales". D'autres auraient même constaté des modifications comportementales dans le temps, ce qui les conduit à parler d'"accumulation culturelle", c-à-d d'évolutions sociétales dans le monde animal ... [source] .
Dans quelle mesure ces travaux scientifiques sont-il biaisés par des biais d'expérimentation et d'interprétations anthropomorphiques, biais cognitifs très fréquents dans la pensée antispéciste et wokiste [source1, source2] ?
Métaphysique. Ainsi le sentiment religieux, ou encore la volonté de comprendre les lois de la nature pour le seul plaisir de la connaissance semblent spécifiques au genre humain, et le distinguer de l'animal (et de la machine).
Le suicide est-il spécifique au genre humain, ou la propension au suicide augmente-t-elle avec le degré d'intelligence de l'espèce considérée ? [source].
Langage et pensée. Quand on compare les langages humains aux systèmes de communication des primates non humains, on constate qu'il n'y a pratiquement pas d'aspect combinatoire chez ces derniers (cf. notion de grammaire). Ils ont bien un lexique, composé uniquement de mots, et peuvent composer des énoncés, mais ne dépassant quasiment jamais l'addition de deux mots. Il n'y a donc rien d'équivalent à la récursivité du langage humain, qui permet de créer une infinité potentielle de messages [source].
Commerce. La pratique des échanges commerciaux est préférable aux invasions et à l’esclavage, raison pour laquelle Montesquieu l'avait identifiée comme une antidote à la guerre. Or on observe des colonies de fourmis se faire la guerre, mais aussi échanger des biens (larves, nourritures, travailleurs). Cependant on a pas découvert chez des animaux l'usage d'une forme où l'autre de monnaie, comme substitut au troc. Ce fait montre que, même à supposer qu'il n'y ait pas de différence de nature entre hommes et animaux), il y a au moins une différence d'échelle dans les capacités qui constituent cette nature.
Civilisation. À une étudiante qui lui demandait ce qu’elle considérait comme le premier signe de civilisation l’anthropologue Margaret Mead ne mentionna pas les traditionnels silex ou l'usage du feu mais ... un fémur cassé qui avait guéri. Mead expliqua que dans le règne animal, un individu dont la patte est cassée sera éliminé par des prédateurs (éventuellement de sa propre espèce) en l'espace de quelques jours voire quelques heures, s'il ne peut les fuir. Un fémur cassé qui a guéri est la preuve que quelqu’un a pris soin du blessé jusqu’à son rétablissement. « Aider quelqu’un d’autre à traverser la difficulté c’est le début de la civilisation » conclut l’anthropologue [source].
Appétit intellectuel. Les animaux ne font pas de recherche fondamentale (dont la caractéristique, qui la distingue de la R&D, est de ne pas être motivée par d'autre objectifs déterminés que celui de découvrir). On pourrait être tenté d'y rapprocher le jeu, dont les animaux en bas âge sont coutumiers, et qui constitue certes une méthode de d'apprentissage efficace. Cependant, il n'y a là aucune volonté d'apprendre, mais seulement de jouer et d'imiter. La conséquence (l'effet) est identique, mais la méthode diffère.
Innovations et progrès. Ainsi, contrairement aux animaux, les humains continuent de progresser après avoir atteint l'âge adulte. En outre, les progrès individuels se propagent au niveau sociétal, grâce à son accumulation sous forme de mémoires matérielles (livres, ordinateurs, ...), au-delà de la durée de vie des individus (progrès civilisationnel).
Les humains progressent par un processus d'innovation double :
La crainte d'éventuelles calamités futures, et la conception anticipative de stratégies pour minimiser leurs conséquences, ne s'observe pas chez les animaux. Là encore, il ne faut pas confondre l’anticipation de schémas de causalité déjà observés (dont sont capables les animaux), et l’inférence de nouvelles possibilités à partir d’expériences passées (non observé chez les animaux) [source].
Concernant la distinction entre intelligence humaine VS animale VS artificielle, on pourrait distinguer deux conceptions :
dichotomique : il y aurait une intelligence spécifiquement humaine, qui n'est pas de même nature que celle des animaux ou des robots ;
la distinction de nature entre intelligences humaine et animale n'est pas très populaire dans la mouvance "wokiste", pour des raisons qui me paraissent moins scientifiques qu'idéologiques [exemple].
en continuum : l'intelligence serait une notion commune aux humains, animaux et machines, mais à des échelles (intelligence humaine supérieure à celle des animaux, et potentiellement inférieure à celles des robots ?).
Différentiels de performance entre humains. Selon la psychologue et chercheuse en science cognitive Fanny Nusbaum , la performance ne serait qu'un « état », que certains ont plus de facilité à atteindre que d’autres, mais qui peut concerner quasiment tout le monde, pour peu qu’on se mette dans les bonnes dispositions [source].
L’éthologue Cédric Sueur propose une troisième approche, considérant l’intelligence animale ou les intelligences animales dans leur singularité – chaque espèce réagit avec ses propres contraintes et dans son propre milieu (*) –, sans chercher à les comparer d’un point de vue qualitatif avec l’intelligence humaine, ni à établir une nouvelle hiérarchie au sein du règne animal.
(*) Par exemple, des oiseaux réagissent positivement au test du miroir, utilisé pour juger de l’aptitude à la conscience de soi, mais pas les chiens. Or, ce dispositif fait appel uniquement au sens de la vue, et des tests du même ordre adaptés au sens de l’odorat ont montré que les chiens y réagissent positivement…
« L’intelligence n’est pas obligatoirement une question de degrés, mais peut se déployer selon des actions et des modes divers » souligne l'éthologue [source]. C'est dans ce contexte que la notion de sentience conduit à la proposition de reconnaître aux animaux une personnalité juridique de personnes physiques non humaines [source].
La subjectivité est une caractéristique qui différencie les humains (et probablement l'ensemble du règne animal) des machines (du moins jusqu'à nos jours, nous y reviendrons plus loin).
Pour cerner la notion de subjectivité, analysons la différence entre information (données) et savoir (connaissance) :
Information (données) : les données ou l'information se réfèrent généralement à des faits, des observations ou des éléments concrets. Elles sont souvent considérées comme objectives car elles peuvent être mesurées, vérifiées et partagées de manière relativement impartiale. Cependant, la collecte, le traitement et la présentation des données peuvent être biaisés en fonction des choix de collecte, de la méthodologie et de l'interprétation. Les données brutes en elles-mêmes sont neutres, mais la manière dont on les utilise peut être subjective.
D'autre part, la subjectivité peut jouer un rôle positif dans le développement de la connaissance :
créativité : la subjectivité peut stimuler la créativité, et partant susciter de nouvelles hypothèses, des théories originales et des solutions innovantes à des problèmes.
émotion et empathie : la subjectivité permet de comprendre et de ressentir les expériences des autres. Elle favorise l'empathie, qui est essentielle pour la compréhension des problèmes sociaux, culturels et humains.
moralité et éthique : la subjectivité joue un rôle central dans le développement de la moralité et de l'éthique. Les individus construisent leur compréhension de ce qui est bien et de ce qui est mal en fonction de leurs valeurs personnelles et de leurs croyances. Cela contribue à la réflexion éthique et à la prise de décisions morales.
L'émotion est une autre caractéristique qui différencie les humains (et probablement l'ensemble du règne animal) des machines.
Si l'impulsivité et l'émotivité extrêmes risquent de nous faire prendre de mauvaises décisions, la seule rationalité peut nous y pousser tout autant. Ainsi les travaux d'Antonio Damasio auprès de personnes souffrant de lésions au niveau du lobe frontal du cortex cérébral, ayant pour effet de supprimer toute émotion, ont montré que ces personnes n'étaient plus aptes à prendre de bonnes décisions [source].
On peut définir l'intelligence émotionnelle comme la capacité à percevoir, comprendre, gérer et exprimer ses propres émotions, ainsi que celles d'autrui, afin de résoudre les problèmes et réguler les comportements liés aux émotions [source].
Quelques réflexions concernant l'émotion :
l'intelligence émotionnelle et relationnelle peut être utilisée aussi bien à des fins bienveillantes que malveillantes (cf. les pervers narcissiques).
ce que l'on appelle (abusivement ?) "l'intelligence artificielle" pourrait être capable de percevoir, et peut-être même d'interpréter les émotions des humains avec plus d'acuité que les humains eux-mêmes.
les deux points ci-dessus illustrent la nécessité d'un contrôle démocratique des moyens de production et de diffusion des savoirs (ce qui est loin d'être le cas, étant donné la sur-dominance de l'entreprise privée états-unienne Google dans le développement de l'IA).
Le transhumanisme est un ensemble de techniques et de réflexions visant à améliorer les capacités humaines, qu'elles soient physiques ou mentales, via un usage avancé de nanotechnologies et de biotechnologies. Cette notion très à la mode décrit en réalité une évolution qui a commencé avec l'invention des premiers outils, il y a plus de cinq mille ans. Les nanotechnologies et biotechnologies permettent aujourd'hui d'intégrer des outils dans le corps humain, jusqu'à modifier son code génétique (ce qui est déjà le cas d'une partie de l'alimentation industrielle, végétale ou animale).
On notera qu'une évolution inverse est déjà en train de prendre forme, c'est "l'humanisation" psychique de certains robots, qui ressemblent de plus en plus à des humains, aussi bien au niveau physique que psychique (notamment par des formes de subjectivité voire même d'émotion *).
(*) Rien n'empêche un ingénieur inventif de configurer un robot de telle façon que ses fonctionnalités soient modulées en réaction à "la vue" d'un paysage ou de "l'écoute" d'une musique, et de qualifier cette réaction de "émotionnelle".
De manière générale, il importe de ne persister dans une voie de R&D spécifique que si son ratio avantages/inconvénients a des chances substantielles de s'avérer favorable dans un délai raisonnable. L'évaluation de ce ratio doit prendre en compte les effets sur le psychisme des individus (cf. l'addiction numérique, et le stress informationnel), l'environnement, et la consommation énergétique [source].
Ainsi, alors que l'industrie pharmaceutique est parmi les plus polluantes, on notera la capacité des animaux à identifier des remèdes médicinaux de façon instinctive, et par conséquent très peu consommatrice d'énergie. D'autre part, nous verrons que l'efficacité énergétique de l'IA est très inférieure à celle des humains. Le tableau suivant illustre la thèse d'un classement inverse entre efficacités fonctionnelle et énergétique des animaux (A), humains (H) et robots (R).
Efficacité fonctionnelle | Efficacité énergétique | |
---|---|---|
1 | R | A |
2 | H | H |
3 | A | R |
Neutraliser le technologisme. En aval de la R&D, les humains ont encore la possibilité d'adapter leur mode de vie. Par exemple, j'ai banni la télévision et je n'ai pas remplacé mon gsm basique par un smartphone. Et, dans une démarche plus proactive, j'ai remplacé le système d'exploitation de mon ordinateur par Linux-Debian (en outre, j'ai conçu un système d'aide gratuite à la libération des ordinateurs familiaux : linux-debian.net).
Dans les années 1980, Hans Moravec soulignait que nos capacités de perception et de motricité nous semblent plutôt faciles et intuitives (comme la marche ou la reconnaissance d’objets) mais sont très difficiles à reproduire sous la forme d’intelligences artificielles tandis que des tâches cognitives de haut niveau (comme des calculs mathématiques complexes) sont très faciles pour elles [source]. Nous verrons que l'IA a aujourd'hui comblé ce déficit, mais au prix d'une gigantesque et croissante consommation d'énergie.
Quels philosophes ont-ils associé l'intelligence au bien ?
Extraits de la réponse de chatGPT (janvier 2024) :
Platon (427-347 av. J.-C.) associait l'intelligence à la sagesse et à la recherche de la vérité. Dans ses dialogues, il mettait l'accent sur la connaissance et la compréhension comme éléments essentiels pour atteindre le bien
Aristote (384-322 av. J.-C.) développait la notion de phronesis, une forme de sagesse pratique, liant l'intelligence à la prise de décision éthique et à la recherche du bien commun.
John Stuart Mill (1806-1873), en tant qu'utilitariste, associait l'intelligence à la capacité de maximiser le bonheur et de minimiser la souffrance. Selon lui, une utilisation éclairée de l'intelligence devait conduire à des actions favorables au bien-être général.
Ces philosophes ont chacun apporté leur perspective unique sur la manière dont l'intelligence peut être liée à la poursuite du bien, que ce soit à travers la connaissance, la moralité, le bonheur ou le respect de la vie.
Depuis le début du siècle, le QI baisse ... en Occident, de sorte qu'aujourd'hui le QI moyen est de seulement 98 en France et aux USA, contre 108 à Hong Kong et Singapour. Une des causes pourrait être la qualité et les budgets de l'enseignement, plus élevés dans les pays asiatiques [source]. Une étude plus récente suggère un éventail plus large de facteurs explicatifs : déclin des valeurs éducationnelles, dégradation des systèmes éducatifs et scolaires, télévision et médias, dégradation de l'éducation au sein des familles, dégradation de la nutrition, dégradation de la santé [source], mais confirme le rôle prépondérant de l'éducation. Ces études sont cependant contestées par d'autres chercheurs selon qui, si l’on prend en compte l’ensemble des données internationales, il n'y aurait pas de baisse mais plutôt stagnation, qui pourrait s'expliquer par l'approche de limites intrinsèques à l’espèce humaine [source].
Un exemple d'application de l'intelligence collective humaine est notre méthodologie visant à organiser la collaboration d'un millier de groupes constituants, pour concevoir et développer collectivement un système de DD, en mettant en place les conditions d'une dynamique d'auto-organisation et d'émergence (/groupes-constituants).
Photographie d'un flocon de neige [source].
L'auto-organisation est une caractéristique de l'intelligence collective. Elle n'est pas celle-ci, puisque le phénomène d'auto-organisation est observé également dans le monde non-vivant. Un exemple emblématique d'auto-organisation dans le monde du non-vivant est la structure (symétrique) d'un flocon de neige. Ses six branches constituant un hexagone sont caractéristiques de la structure cristalline de la glace. Au niveau microscopique chaque molécule d'eau est composé d'un atome d'oxygène entouré de deux atomes d'hydrogènes, formant un V autour du premier. Au niveau macroscopique, chaque branche est une fractale c-à-d que la structure de ses composants est invariable quel que soit le niveau d'échelle de l'observation.
Si l'on accepte l'hypothèse que l'intelligence existe en tant que caractéristique propre aux organismes vivants, alors il est de même pour l'intelligence collective.
Les images ci-dessous illustrent des formes simples d'intelligence collective, observées dans le monde animal. Elles ont en commun deux faits troublants : (i) elles s'expriment au travers de formations, composées des corps d'individus d'une même espèce, et (ii) ces formations présentent toutes une forme de symétrie, laquelle remplit une fonction précise.
Formations d'oiseaux en vol, pour minimiser leur consommation d'énergie. |
Formation de poissons, pour se protéger de prédateurs. |
Formation de fourmis, constituant un pont. |
Nous développons ici la thèse selon laquelle l'intelligence collective humaine consisterait en l'exploitation – consciente et proactive – des phénomène d'auto-organisation et d'émergence, par des intelligences individuelles communiquant via un réseau "le plus décentralisé possible".
On devine déjà ici l'importance du contrôle démocratique de l'infrastructure – matérielle et électronique – du réseau ...
Le passage conceptuel entre les dimensions individuelle et collective de l'intelligence correspond à la question fondamentale, dans le domaine scientifique, du lien entre niveaux local et global.
1. Physique quantiqueDans l'état actuel des connaissances en physique, les lois naturelles qui régissent la physique des corps microscopiques (disons de taille inférieur à l'atome), semblent différentes de celles observées au niveau macroscopique. Le tableau suivant synthétise le principe d'incertitude (ou d'indétermination) d'Heisenberg, à savoir que la perception que nous avons du monde microscopique ne peut être exprimée (mesurée) qu'en termes probabilistes, c-à-d qu'il existe une incertitude – certes limitée (inférieure à 100 %), mais systémique (inhérente aux corps microscopiques) – quant à la connaissance que nous avons de la position ou de la quantité de mouvement d'une particule (NB : cela n'implique nullement que, dans la réalité, une particule pourrait être dans plusieurs positions ou états en même temps).
Données de la mesure d'un électron
Micro | Macro | |
---|---|---|
Position | incertaines si état connu | certaines |
État | incertains si position connue | certains |
"Incertaine" ≡ probabiliste.
Quelques remarques :
Déterminisme. Soulignons que le principe d'incertitude est inhérent à la nature microscopique. Il n'est donc pas lié à une insuffisance des technologies actuelles de mesure. Autrement dit, contrairement au monde macroscopique, la physique microscopique est par nature soumise à une part de hasard, ce qui semble remettre en question le principe de déterminisme.
Discontinuité. Si la physique microscopique est qualifiée de mécanique quantique, c'est en raison d'une discontinuité inhérente à cette dimension, illustrée notamment par le fait qu'un électron ne peut se situer qu'à certaines orbites autour de son noyau.
Passons maintenant au corps vivants.
Des scientifiques ont suggéré que la thèse selon laquelle le siège de la conscience est le cerveau des individus pourrait être incomplète. Ils suggèrent que les consciences individuelles seraient reliées par une conscience collective, de sorte que la conscience "individuelle" dépasserait spatialement voire aussi temporellement le corps (cf. notion de "conscience non-localisée" proposée par le cardiologue Pim van Lommel : source ; approfondir : scholar.google.com/scholar?q=nonlocal+consciousness).
Quoi qu'il en soit, il est incontestable qu'une forme de conscience collective existe déjà, et se développe depuis que les humains construisent des moyens de communication (routes, écriture, Internet, ...). Internet est un réseau de communication virtuelle, c-à-d limitée aux seules données sous forme de bits. En outre, Internet intègre des unités de stockage (bases de données) et de traitement de ces données (requêtes, calcul, affichage sous diverse formes, ...).
Ainsi en combinant, au sein d'un protocole tel que Ethereum, des chaînes de blocs (bases de données distribuées sur un réseau pair-à-pair) avec des contrats intelligents, on peut constituer des applications décentralisées (dApp) telles qu'une organisation autonome décentralisée ("DAO") ;
De nombreuses applications pourraient fonctionner sur un réseau tel que Ethereum : gestion d'identité et de réputation, traçabilité des produits alimentaires, location d’appartements ou de voitures, bornes de ravitaillement électrique, achat de crédit d’énergie, instruments financiers auto-exécutifs, enchères, marchés de prédiction, etc. Les DAO sont notamment supposées réduire les coûts de vérification, d’exécution, d’arbitrage et de fraude [source].
Approfondir :
La dynamique d'intégration des sphères locales à la sphère globale, exprime sa potentialité dans le phénomène d'émergence, que l'on résume souvent par l'idée selon laquelle "le tout vaut plus que la somme des parties". Mais avant d'aborder la notion d'émergence, traitons une autre notion caractérisant l'intelligence collective : l'auto-organisation.
Je définirais l'auto-organisation, dans le monde du vivant, donc dans la sphère sociologique, comme étant le phénomène par lequel un groupe d'individus mènent des actions qui, vues de l'extérieur peuvent paraître coordonnées, alors qu'en réalité ces actions individuelles sont le fait d'individus qui ne se connaissent pas nécessairement, et peuvent même ignorer l'existance des autres membres du groupe informel qu'ils constituent (et qu'ils constituent sans le savoir nécessairement !). L'apparence de coordination est simplement la conséquence d'intérêts partagés entre les membres de ce groupe informel.
On notera que la méconnaissance du phénomène d'auto-organisation peut expliquer la propension de nombreuses personnes à interpréter des faits politiques ou économiques en termes complotistes. Autrement dit, ces personnes voient des complots même là où il n'y en a pas nécessairement !
L'explication des intérêts partagés fonctionne pour le monde du vivant, et en l'occurrence pour des organismes qui ont une volonté. Elle n'est donc pas applicable pour expliquer l'auto-organisation dans le monde du non-vivant (cf. flocon de neige). Pour cela il faut se référer à la notion de "structures dissipatives" mises en évidence par Ilya Prigogine, qui fut professeur à l'université libre de Bruxelles et prix Nobel de chimie en 1977. On parle de structure dissipative dans le cas d'un système ouvert ne pouvant subsister dans un état stationnaire que s'il est traversé par des flux d'énergie. Une structure dissipative est donc un système hors équilibre : son énergie interne peut certes rester constante en moyenne (comme dans un système fermé) mais elle est constamment renouvelée (contrairement à un système fermé).
Approfondir : allocation-universelle.net/thermodynamique#structure-dissipative
Per Bak a montré que l'auto-organisation relève d'un processus qu’il a baptisé "criticalité auto-organisée" par lequel les structures dissipatives s'organisent à la manière des transitions de phase continues, comme le passage de l’état liquide à l’état solide, c-à-d au passage d’un état désordonné (l’état liquide) a un état ordonné (l’état cristallin). Des avalanches de bifurcations produisent des arborescences fractales : amplification des fluctuations ⇒ rupture de symétrie (avec invariance par changement d'échelle) ⇒ apparition et mémorisation d'information.
Les transitions abruptes nécessitent un apport extérieur d’information sous la forme d’un germe. Lors des transitions continues – cas des structures dissipatives – de l’information apparaît progressivement au fur et à mesure que la phase ordonnée se développe. Ces informations se propagent par percolation au sein de domaines d'Ising. Le modèle s'auto-organise de façon à maximiser l'énergie reçue (cf. supra les cacahuètes récompensant les essais réussis par le singe dans le modèle d'apprentissage de Bak et Stassinopoulos : #apprentissage).
Physique ⇒ biologie ⇒ sociologie. Selon François Roddier « le concept de réseau neuronal peut s’appliquer à tout système dissipatif considéré comme un ensemble d’agents échangeant de l’énergie et de l’information. On sait aujourd’hui que ces agents s’auto-organisent pour maximiser la vitesse à laquelle ils dissipent l’énergie (principe d'entropie maximale). C’est apparemment le cas des molécules d’air dans un cyclone, des bactéries dans une colonie, des fourmis dans une fourmilière comme des neurones dans notre cerveau. C’est aussi le cas des sociétés humaines. » [source].
Peut-on appliquer à tous ces phénomènes le même modèle d’auto-organisation ? Le modèle de Bak et Stassinopoulos représente un réseau régulier de neurones, mais les simulations faites avec des réseaux quelconques de noeuds reliés par des connexions arbitraires fonctionnent également. Le modèle de Bak et Stassinopoulos permet donc de modéliser la dynamique cognitive d'une population, dont chacun des individus peut échanger de l'information avec n'importe quel autre et déclencher une action. On peut alors parler d'intelligence collective ou de "cerveau global" [source].
Selon Roddier, en biologie l'ontogenèse correspondrait à une transitions abruptes, et la phylogenèse à une transition continue. L’information est mémorisée dans les gènes. Les êtres vivants qui partagent les mêmes gènes forment des domaines d’Ising appelés espèces animales ou végétales. Chez l’homme, l’information est principalement mémorisée dans son cerveau. Les sociétés humaines mémorisent à leur tour de l’information dans les livres, plus récemment dans les ordinateurs. C’est ce qu’on appelle la "culture". Les individus qui partagent la même culture forment des domaines d’Ising sous la forme de sociétés humaines. Les lois de la thermodynamiques expliquent donc aussi le phénomène sociologique d'auto-organisation [source1, source2].
Exploitation. La notion marxiste d'exploitation des salariés est fondée notamment sur l'appropriation de la plus-value collective, cette plus-value pouvant être vue comme le fruit du phénomène d'émergence.
Le modèle peut également expliquer la dynamique du progrès scientifique : « les sociétés humaines s’auto-organisent en formant un cerveau global capable de mémoriser toujours plus d’information. Cette information leur permet de dissiper de plus en plus d’énergie. C’est ce que nous appelons le progrès scientifique et technique. (...) Un réseau neuronal reçoit de l’information de sa source froide: c’est le cas du cerveau global que forme notre société. (...) La température de cette source froide peut s’exprimer en euros dépensés par bits d’information mémorisée. Cela soulève le problème du coût de la recherche scientifique. Plus ce coût est important, plus la température de notre source d’information est élevée et plus le rendement de Carnot de notre société est bas. (...) Les sociétés humaines s’effondrent lorsque leur rendement de Carnot est trop bas » [source].
Une propriété importante des systèmes auto-organisé est qu'ils sont largement imprévisibles. L'auto-organisation n'est donc pas bénéfique ou vertueuse en soi. Ainsi un phénomène catastrophique peut fort bien être auto-organisé.
Moulin de fourmis (40sec)
Selon François Roddier « un système qui s'auto-organise a une évolution plus ou moins imprévisible. En effet si l'on pouvait parfaitement prévoir son évolution, celle-ci ne nous apporterait aucune information. Notre connaissance du système resterait inchangée. Le fait que son entropie diminue montre que ce n'est pas le cas : notre connaissance du système augmente. Il y a apparition d'informations nouvelles imprévues. Cela explique les difficultés des prévisions météorologiques. Cela explique aussi pourquoi le comportement des êtres vivants est largement imprévisible. L'évolution d'une société humaine l'est aussi. Au contraire, l'évolution d'un système isolé est largement prévisible : un mélange d'eau chaude et d'eau froide donne toujours de l'eau tiède [source p. 35] ».
Une question vient alors à l'esprit : le phénomène d'auto-organisation est-il suffisant en soit pour organiser efficacement la société (thèse de l'idéologie anarchiste/libérale) ? La réponse semble négative : dès lors que les phénomènes auto-organisés sont imprévisibles, comment pourraient-ils correspondent systématiquement aux besoins des humains, en tout lieu et à tout instant ? Le phénomène du moulin de fourmis évoqué plus haut illustre d'ailleurs le fait que l'auto-organisation n'est pas nécessairement rationnelle et bénéfique.
Ces faits conduisent à la question : comment organiser efficacement et durablement la société humaine ?
L'émergence est le phénomène par lequel "le tout vaut plus que la somme de ses parties". Elle est déterminée par deux propriétés d'une population : sa taille et sa diversité.
Définir l'émergence comme le phénomène par lequel le tout vaut plus que la somme des parties peut paraître abusif dans la mesure où il ne respecte pas le premier principe de la thermodynamique ("rien ne se créé, rien ne se perd"). Cependant, le principe d'émergence ne s'applique pas à la matière ou à l'énergie, mais à des effets ou fonctionnalités, que l'on observe qu'au seul niveau global.
La vie elle-même est un processus émergent : à partir de réactions chimique, un processus d'auto-organisation conduit progressivement à l'élaboration de structures complexes.
Ainsi par exemple, des exemples d’intelligence émergente se trouvent chez les groupes d’animaux sociaux, comme les fourmis ou les abeilles, où l'on observe, à l’échelle du groupe, une forme d’intelligence qu’on ne trouve pas à l’échelle de chaque animal séparé [source].
Notons que les effets émergents ne sont pas nécessairement rationnels ou bénéfiques, comme l'illustrent les lynchages collectifs par des groupes d'humains.
Un possible contre-exemple de l'émergence est donné, selon la thèse dite du "covidisme", par le cas des experts en épidémiologie (notamment ceux de l'OMS) qui, enfermés dans leur tour d'ivoire des modèles mathématiques – nécessairement simplistes au regard de l'extrême complexité des phénomènes biologiques – ont fait imposer aux populations une stratégie "anti-épidémique", fondée sur la peur et la coercition, et dont les effets pervers sont d'une telle ampleur que ce seraient eux, et non le virus qui expliqueraient la majorité de la surmortalité toutes causes observée entre 2020 et 2022.
Cependant, au moins chez les humains, le travail de groupe peut participer à rehausser le niveau moyen de capacité de chacun des individus : ainsi par exemple, on chante plus juste à plusieurs que tout seul, car on se corrige en écoutant les autres [source]. Et cela sans aucune forme d'organisation.
La formation, l'information et l'organisation des individus peut améliorer leurs performances individuelles et collectives. Ainsi la délibération est une technique pouvant produire des effets d'émergence. Elle peut opérer comme suit [source] :
Landemore rappelle diverses théories éclairant le phénomène d'émergence [source], notamment en illustrant l'importance du nombre et de la diversité des membres du groupe :
La diversité cognitive entre individus, par rapport à l'objet (physique, social, ...) étudié, est notamment fonction des capacités cognitives, milieu social, vécu ou encore âge respectifs. Elle se traduit par des différences dans les analyses des causes comme des effets (ainsi par exemple, une situation peut être perçue comme problématique pour certains mais pas par d'autres).
Lu Hong et Scott Page auraient établi (2004) qu’en raison des bénéfices de la diversité cognitive (c’est-à-dire la diversité des intelligences et des perspectives), des groupes non experts mais diversifiés sont souvent meilleurs, dans la résolution de problèmes complexes, que des groupes d’experts [source]. Ainsi selon Hélène Landemore : « il vaut souvent mieux avoir un groupe de personnes cognitivement diverses qu’un groupe de personnes très intelligentes qui pensent de la même manière. En effet, alors que des personnes très intelligentes qui pensent de la même manière vont avoir tendance à s’arrêter rapidement sur la solution qui leur paraît la meilleure sans chercher plus loin, les membres d’un groupe cognitivement plus divers ont la possibilité de se guider les uns les autres dans l’exploration d’autres possibilités : ils ne s’arrêtent pas à la solution commune retenue par ceux qui pensent pareillement et se donnent ainsi une chance de trouver la meilleure solution entre toutes (l’optimum global) » [source].
À cet égard il importe de distinguer :
Dans les deux cas il y a risque de décrochage par rapport au réel, et de dérive vers le dogmatisme voire le scientisme. Dans une société qui survalorise l'expertise (c-à-d la division du travail), le suivisme peut alors conduire au phénomène du "moulin de fourmis" voire à des prophéties auto-réalisatrices (cf. le "covidisme" ?).
Ceci dit, l''émergence ne remet évidemment pas pour autant en question l'utilité des experts, notamment lors de la phase 1 de la délibération (cf. supra).
L'émergence concerne aussi les machines, comme l'illustrent des expériences sur les automates cellulaires et la robotique en essaim. Une équipe de chercheur de l'ULB a ainsi montré que des robot peuvent, collectivement, séquencer des actions dont l’ordre d’exécution est à priori inconnu. Dans la méthode appliquée, les deux paradigmes robotiques – délibératif (sens-modèle-planifier-acte) et réactif (sens-acte) – traditionnellement considérés comme incompatibles, coexistent d’une manière particulière : la capacité de planifier émerge au niveau collectif, à partir de l'interaction d’individus réactifs. [source]. Cette expérience est particulièrement intéressante car elle décrit une dynamique "d'émergence de l'émergence", fondée sur une forme d'auto-organisation.
Dans la vidéo ci-dessous, l'épidémiologiste Didier Raoult évoque un phénomène étonnant : la somme des décisions individuelles, apparemment non concertées, de se faire tester reflète de façon très précise l'évolution statistique d'une épidémie (courbe en cloche).
Prendre en compte l'intelligence collective (juin 2020- 0m52s)
Il résulte de l'effet d'émergence que la démocratie pourrait s'avérer supérieure à l'oligarchie d'un point de vue épistémique. Mais qu'en est-il du passage de la démocratie représentative à directe ? Pour Landemore « il y a une limite théorique à l’augmentation de l’intelligence collective par l’introduction de toujours plus de points de vue. Dans l’agrégation de jugements, la diversité cognitive n’est pas une fonction linéaire du nombre de jugements agrégés et il y a un retour sur apport qui, au-delà d’un certain seuil, va s’amenuisant. (...) Ce problème de seuil suggère a priori la supériorité épistémique de la démocratie représentative sur la démocratie directe dans les sociétés de masse » [source].
Cette thèse de non linéarité (il y aurait un plafond) reste à prouver. Mais même en supposant sa validité théorique, il est hautement probable qu'en pratique le progrès technologique augmente constamment cette limite de sorte qu'il y a au moins linéarité. Ce progrès technique et technologique est illustré par notre méthodologie de conception et développement d'un système de gouvernance de démocratie directe (cf. /groupes-constituants), qui vise à activer les phénomènes d'auto-organisation et d'émergence, au moyen de trois principes fondamentaux : les comparaisons croisées, les validations itératives et la redondance initiale. Elle organise le travail collaboratif de plusieurs milliers de personnes, et il n'est pas évident d'identifier une limite théorique ou pratique au nombre maximum de participants ...
Médias vs réseaux sociaux : qui dit la vérité (2016, 1m5s)
Lorsqu'il s'agit de classer les causes de mortalité par ordre d'importance, les réseaux sociaux sont plus proches de la vérité scientifique que les médias "d'information". Est-ce une illustration de l'intelligence collective, ou de la propension des médias au sensationnalisme ? L'intelligence collective serait-elle plus performante sans l'influence de la presse ?
La notion économique de marché est un cas de théorie de l'auto-organisation. Selon cette théorie, chaque individu n'aurait qu'à viser la maximisation de son profit personnel pour que, via le mécanisme des marchés et des prix, s'opère une allocation – supposée optimale – de l'ensemble des biens et services. Par "optimale", on entend que cette allocation est la meilleure possible pour chacun et la collectivité. Les marchés sont ainsi supposés "efficients". Autrement dit, toute organisation des marchés par l'État serait nuisible par nature. Cependant de nombreux faits suggèrent que le postulat d'efficience naturelle des marché n'est pas pertinent (cf. allocation-universelle.net/principes-monetaires#marches-inefficients).
Dans une approche biologique, François Roddier extrapole le modèle de Bak et Stassinopoulos (cf. supra #apprentissage) à l'économie, en assimilant l'excitation des neurones à la richesse monétaire des individus. Les signaux d'entrée expriment le besoin en produits ou services. La transmission des signaux correspond à des transactions financières. En l'absence de percolation, ces transactions se limitent à des placements financiers. Lorsque le réseau percole, il conduit à une offre commerciale. Dans ce schéma, l'économie financière représente les réflexions du cerveau global. L'économie de production traduit ses actions réelles [source].
On est ici au niveau macroéconomique, mais l'économie – science de la gestion des ressources – doit également être étudiée au niveau microéconomique. À ce niveau, la théorie des jeux propose une description formelle d'interactions stratégiques entre agents (appelés « joueurs »).
Le dilemme du prisonnier est un fondement de la théorie des jeux. Le tableau suivant montre les règles de ce jeu, l'objectif des joueurs/prisonniers étant de minimiser leur peine, alors qu'ils ne connaissent pas la stratégie adoptée par l'autre, et n'ont pas de moyen d'influencer celui-ci.
PS : on pourrait reformuler le jeu de sorte que l'objectif est de maximiser un gain, cela revient au même.
Les règles sont les suivantes :
On peut résumer ces règles sous forme de matrice.
Le tableau suivant est une présentation plus intuitive.
Lecture ligne 3 : si A trahit et B collabore alors A est libéré tandis que B est condamné à 10 ans de prison (NB : les joueurs ne connaissent pas le choix de l'autre).
La colonne E montre que ce jeu (i) n'est pas à somme nulle (la colonne contient des valeurs non nulles) ; et (ii) est à somme variable (les valeurs de la colonne ne sont pas identiques).
Paradoxe. Ce jeu est conçu de telle sorte que son résultat est paradoxal :
D'autre part, l'incertitude concernant le choix opéré par l'autre joueur (par exemple A) a pour effet (étant donné les valeurs du tableau) que :
On constate donc que les dans les deux cas (c-à-d quel que soit le choix fait par A) B a intérêt à trahir. Et comme les situations de A et B sont symétriques la même conclusion vaut également pour A. Chacun des deux joueurs devrait donc trahir l'autre (ligne 2). Or dans ce cas la peine obtenue ne correspond ni aux peines minimales individuelles ni à la peine minimale collective, et cela alors que le comportement des joueurs est pourtant supposé rationnel.
La cause de ce paradoxe est double : (i) les règles du présent jeu (qui en l'occurrence sont fondées sur la logique du système judiciaire) sont conçues pour inciter à la trahison ; (ii) l'incertitude quant au choix opéré par l'autre joueur conduit à minimiser le risque d'obtenir la peine maximale (c-à-d à maximiser la probabilité d'obtenir un temps libre maximum).
Stratégie dominante. Dans un jeu dont la stratégie optimale est indépendante de l'anticipation faite par le joueur quant à l'action simultanée/inconnue des autres joueurs (ici, A a intérêt à trahir quelque soit le choix fait par B), la stratégie optimale est dite "dominante".
Interprétations. Le résultat du dilemme du prisonnier requiert deux commentaires importants :
L'on pourrait très bien concevoir des jeux dans lesquels les joueurs n'ont pas d'autre choix rationnel que de collaborer (programmation du résultat théorique). On ne peut donc extrapoler le résultat du dilemme du prisonnier à tous les jeux possibles et imaginables, et conclure que le dilemme du prisonnier démontrerait que dans la vie en général les individus n'ont pas intérêt à collaborer ou ne sont pas enclins naturellement à le faire. Comprenons donc bien que le dilemme du prisonnier ne révèle absolument rien sur la nature humaine en général (*), mais par contre il nous en dit sans doute un peu sur ses concepteurs, qui ont préféré illustrer le principe de stratégie dominante par une stratégie non-collaborative plutôt que de collaborative ...
(*) Néanmoins, les expérimentations de ce jeu permettent d'évaluer la propension d'une population de joueurs à collaborer ou trahir. En l'occurrence une expérience aurait donné 20% de collaborations et 80% de trahisons. Dans une autre expérience la répartition serait plus proche de la parité (question : la plus grande proportion de collaborations s'explique-t-elle par une plus large connaissance du dilemme du prisonnier parmi les joueurs ?).
Il faut se garder d'associer systématiquement un caractère positif à la collaboration et négatif à la non collaboration (trahison) : tout est relatif au point de vue (c-à-d au référentiel). Ainsi un cartel peut maximiser ses revenus (au détriment du reste du monde ...) en convenant (i) de quotas de production et (ii) de punitions en cas de dépassement des quotas. Pour neutraliser cette collaboration l'État (ou une autorité internationale) peut par exemple assurer une quasi-immunité au membre du cartel qui révélera l'accord à la justice (trahison) et permettra ainsi de punir les autres membres du cartel [source p. 155].
Utilité/applications de la théorie des jeux :
permettre à une organisation d'influencer (programmer ?) le comportement de ses membres (NB : dans l'intérêt de la collectivité ... ou des seuls dirigeants de l'organisation) ;
Si le jeu devient répétitif chaque joueur peut alors observer les choix précédents des autres joueurs, et implémenter des stratégies visant à influencer leur comportement. Selon une expérience réalisée en 1979 par Robert Axelrod, la stratégie socialement et individuellement optimale dans nos relations avec autrui est la suivante : coopérer à la première partie, puis adopter systématiquement le dernier choix fait par l'autre joueur (coopérer s'il a coopéré, trahir s'il a trahi) [source].
Selon une estimation, dans les jeux répétitifs, le pourcentage de trahisons serait proche de ... 100%, du moins lorsque les joueurs n'ont pas connaissance des conclusions d'Axelrod.
Cette stratégie dite "donnant-donnant" est de type "à mémoire courte" car elle consiste à ne tenir compte que de la dernière action de l'adversaire (coopération ou trahison) en faisant table rase du passé (même si le passé de l'adversaire n'est fait que de trahisons !).
Application. On notera que cette règle relève du bon sens et peut être appliquée aussi bien dans le travail professionnel avec les collègues que dans le travail éducatif avec les enfants (P.S. Appliquer ces conclusions exige donc de vaincre notre rancune tout autant que notre gentillesse. La raison doit l'emporter sur nos états d'âme ...). Au niveau des États, la stratégie "donnant-donnant" peut être appliquée dans la négociations des accords de libre-échange.
Encore mieux. En 2012 des chercheurs ont trouvé un type de stratégies supérieures au donnant-donnant : les stratégies "à déterminant nul". Celles-ci sont cependant éthiquement un peu plus problématiques, et cela pour deux raisons : (i) elles reposent sur un procédé statistique relativement complexe (et avantagent donc les individus capables de les comprendre/appliquer) ; (ii) elles consistent à contraindre la partie adverse. Pour ce deuxième point la problématique éthique est cependant tempérée dans la mesure où (a) il s'agirait d'une contrainte généreuse (résultat gagnant-gagnant) ; (b) dans les grandes populations qui évoluent, l'optimum ne serait plus cette contrainte généreuse, mais la coopération [source].
Une excellente vidéo de vulgarisation (14m36s) sur la théorie des jeux.
On pourrait considérer qu'une classe dirigeante est une démocratie limitée à ses membres, ou encore que dans une démocratie directe la classe dirigeante serait constituée de l'ensemble de la population (de sorte que la notion de classe ne ferait plus sens). Dans ces phénomènes politiques et économiques la part d'auto-organisation ne doit pas être sous-estimée.
Complots ? Ainsi la réalité opérative de classes dirigeantes peut s'expliquer bien plus simplement comme relevant d'un phénomène d'auto-organisation, plutôt que d'une organisation volontariste. Les intérêts des parties prenantes – plus ou moins bien compris (l'opportunisme de certaines, la naïveté d'autres) – peuvent donner l'illusion d'une organisation concertée, alors même que ces parties ne se connaissent pas nécessairement, voire n'ont pas même conscience de l'intégralité des parties et intérêts en jeu.
Ceci dit, il est flagrant que la conscience de classe est (beaucoup) plus marquée chez les riches que chez les pauvres. Cela est probablement lié au contrôle des moyens de production de masse (MPM), notamment ceux du savoir et de la propagande. Or de la conscience de classe à l'organisation concertée il n'y a qu'un petit pas ...
Si l'auto-organisation peut expliquer l'existence de classes dirigeantes, l'organisation concertée en est une autre cause possible (et complémentaire). L'efficacité de cette organisation volontariste est illustrée par le spectaculaire développement économique de la Chine.
Eric X. Li : L'histoire de deux systèmes politiques (TED 2013, 20m37s)
Les classes dirigeantes nationales sont caractérisées par leur volonté de puissance, laquelle est à l'origine de la plupart des guerres de conquête, et cela d'autant plus qu'il est aisé aux membres de l'establishment d'échapper aux devoirs militaires dangereux. Une illustration de ces faits est la guerre du Vietnam. Quant au principe de Pax Romana il est une illusion locale dans la mesure où les guerres se déroulent en dehors des frontières, puisqu'à l'instar des entreprises privées, tout empire doit s'étendre pour ne pas disparaître.
Il semble que le débat social fonctionne largement sur le mode émotionnel. Ainsi en politique et en économie, que l'on cherche à "gauche" ou à "droite", il devient de plus en plus difficile de trouver des discours qui n'exploitent pas le registre de l'émotionnel. C'est notamment le cas des débats sur le climat, l'immigration, le libre-échange ou encore l'Union européenne, où stigmatisation et moralisme confrontent leurs simplismes respectifs. Mais c'est notamment au travers de ce débat que l'intelligence collective peut opérer, pour autant que la liberté d'expression soit préservée.
La liberté d'expression n'est pas fondée que sur des considérations morales, mais aussi, et peut-être surtout, pragmatiques. Ainsi l'information libre est une condition nécessaire pour analyser correctement, et gérer efficacement, n'importe quelle situation. Un contre-exemple flagrant fut le covidisme : la liberté d'expression fut remplacée par la propagande et l'intimidation des discours contredisant la version officielle. Il en a résulté que la majorité de la surmortalité toutes causes observée en 2020 et 2021 (plus de quinze millions de décès dans le monde) fut probablement causée non par le virus mais par les graves effets pervers de la stratégie de la peur.
Le covidisme illustre la nécessité du contrôle démocratique des moyens de production de l'information et du savoir, intrants principaux de l'intelligence collective. Nous avons suggéré que ce contrôle pourrait être exercé au moyen de coopératives publiques. Malheureusement les traités de l'Union européenne découragent voire empêchent les États membres de créer des entreprises publiques et d'ainsi accroître la concurrence en proposant aux consommateurs une offre publique de biens et services.
Au moyen de coopératives publiques, l'État devrait notamment :
Frederick P. Brooks Jr., qui fut au début des années 1960 un des principaux concepteurs de l’OS 360, le système d’exploitation des mainframes IBM, il est illusoire de prétendre établir au début d’un projet un cahier des charges et des spécifications immuable dont la maîtrise d’œuvre devra assurer docilement la réalisation fidèle. Le plus difficile dans une telle entreprise consiste à définir le but à atteindre, et que l’on ne peut y arriver que par itérations successives : réalisation d’un prototype sommaire, que l’on montre au donneur d’ordres, qui fait part de ses critiques et de ses suggestions à partir desquelles sera réalisé un second prototype plus élaboré, et ainsi de suite, pendant tout le cycle de vie du système [source p.128]. Il s'agit donc d'un processus progressif et itératif, favorisant l'action a posteriori, sur la base de l'expérience, et non à priori, sur la base de spéculations [source].
Développer un concurrent de Wikipédia qui serait réservé aux personnes identifiables par une forme crédible de eID. Actuellement, les pages "Utilisateur" des éditeurs et modérateurs de Wikipédia sont des simulations d'identification (exemple), ce qui ouvre la porte au contrôle de certains sujets par des groupes bien organisés et financés.
Les performances en matière de stockage et de vitesse de traitement des données par un ordinateur portable dépassent aujourd'hui les capacités humaines, et cette différence augmente constamment avec l'amélioration des processeurs.
Entre 1970 et 2010, le nombre de transistors présents sur une puce de microprocesseur a doublé en moyenne tous les deux ans. Depuis, cette vitesse d'amélioration des performances a ralenti, en raison de limites physiques à la miniaturisation et de coûts croissants des matériaux.
Le ralentissement de la croissance des capacités du matériel ("hardware") a été compensées par des progrès substantiels au niveau des données ("software"), en termes :
Les ordinateurs ont ainsi acquis des capacités d'apprentissage statistique non supervisé (c-à-d sans intervention humaine pour catégoriser les données d'entrée).
Quelques étapes importantes dans l'évolution de l'IA :
L'IA avait connu une première vague dans les années 1980 sous le nom de "systèmes experts". Il s'agissait d'une IA "symbolique", caractérisée par l’utilisation de règles logiques pour résoudre des problèmes, simulant un raisonnement déductif (exemple : si..., alors...). Peu performante dans les problématiques instables et ouvertes, elle a aujourd'hui fait place à une IA dite "connexionniste", qui se fonde sur une analyse probabiliste de données, simulant un raisonnement inductif [source].
Ce que nous appelons aujourd'hui "IA" sont des systèmes informatiques (matériel + logiciel) intégrant deux fonctions fondamentales :
système de sélection de données, par arbre de décision (minimax), sur de gigantesques bases de données (exemple : le superordinateur de jeu d'échec Deep Blue) ;
algorithme d'auto-apprentissage par renforcement, au moyen de réseaux de neurones (exemple : l'algorithme de jeu de Go AlphaGo), à partir de base de données pouvant être initialement très petites (par exemple les seules règles du jeu de Go), puis enrichies par entraînement (par exemple les résultats d'une grande série d'auto-jeux).
Ainsi les techniques d'apprentissage neuronal sur de grandes bases de données, permettent à des systèmes informatiques de dialoguer de manière cohérente et critique avec un humain (exemple : chatGPT) ou encore de reconnaître des formes (exemple : Amazon Rekognition) et des sons (exemple google.com/speech-to-text). Mais alors que Deep Blue exploite les bases de données par des algorithmes de recherche exhaustive par arbres de décision, ces systèmes exploitent les bases de données de façon probabiliste (et donc non exhaustive).
L'étape suivante est probablement celle des processeurs biologiques (moindre consommation d'énergie), puis des processeurs quantiques (extrêmement plus rapides).
Deux problématiques majeures de l'IA sont son énorme consommation énergétique, et le risque existentiel pour l'humanité.
NB : la compréhension de ces principes n'est pas nécessaire pour utiliser l'informatique, mais bien pour tenter de comprendre les différentes notions de l'intelligence.
1. ArchitectureEn 1936 le mathématicien Alan Turing proposa un modèle théorique de calcul, développé dans le but de comprendre les limites de ce qui peut être calculé par une machine. La "machine de Turing" est constituée d’une bande infinie de mémoire divisée en cellules, une tête de lecture/écriture qui peut se déplacer sur cette bande, et un ensemble d'états qui régissent le comportement de la machine.
Machine de Turing
Détail des trois composants de la machine de Turing :
une bande infinie divisée en cellules, où chaque cellule peut contenir un symbole.
une tête de lecture/écriture qui peut lire et écrire des symboles sur la bande et se déplacer dans les deux sens.
une fonction de transition qui, pour chaque état de la machine et chaque symbole figurant sous la tête de lecture, précise :
Au début des années 1940, le mathématicien John von Neumann proposa un modèle d'architecture de calcul, avec une mémoire centrale (où les programmes et les données sont stockés), un processeur qui exécute les instructions, et une unité de contrôle qui gère l'exécution des programmes :
l'ALU (acronyme en anglais) contient les circuits logiques des instructions (les instructions sont des objets physiques, en l’occurrence des circuits électroniques qui réalisent ces opérations conformément aux règles de l’algèbre de Boole, qui permet de modéliser des raisonnements logiques selon un formalisme qui se prête bien à la réalisation par des circuits électroniques).
Les deux principes à la clé de l’architecture de von Neumann sont l’exécution séquentielle et le partage d’une mémoire unique pour les instructions et les données du calcul [source p.51]. Source image.
Exemple pratique : addition de deux nombres [source : chatgpt.com] :
Selon Samuel Goyet, « avant von Neumann, programmer c’était tourner des boutons et brancher des fiches dans des tableaux de connexion, depuis von Neumann c’est écrire un texte » [source, p.412, édition 2024].
Le traitement simultané de plusieurs opérations est-il possible ?
En théorie, non. En pratique, oui. Un ordinateur ne peut théoriquement traiter plusieurs instructions séparément. Cependant, en pratique, des ordinateurs à plusieurs processeurs peuvent exécuter plusieurs programmes simultanément. L'illusion de simultanéité provient du fait que pour un humain les délais d'action et de perception sont respectivement de l'ordre du dixième et centième de seconde, alors qu'un processeur peut traiter plusieurs centaines de millions d’instructions par seconde, ce qui correspond à quelques nano-secondes (milliardièmes de seconde) par instruction, soit un ordre de grandeur huit à neuf fois inférieur. Par conséquent, une tranche de temps de quelques fractions de seconde, partagée entre plusieurs processus, donne à l’échelle macroscopique de la perception humaine l’illusion de la simultanéité [source p.48].
Le matériel informatique ("hardware") – en l'occurrence le processeur – étant composé de systèmes électroniques, il ne peut traiter et stocker que des données binaires, en l'occurrence des 1 (présence de courant) et des 0 (absence de courant). Ce matériel ne peut donc interagir qu'avec des programmes/logiciels ("software") écrits en langage binaire. Les programmes informatiques écrits par des humains doivent donc être convertis/traduis en ce langage machine pour pouvoir être exécutés par le processeur.
L’unité centrale de l’ordinateur est constituée de circuits logiques, qui réalisent matériellement les opérations de la logique, et à partir de là les opérations arithmétiques élémentaires. Un circuit logique fonctionne sur base d'un dispositif dit semi-conducteur, qui en fonction d’un courant de commande laisse passer ou bloque un courant entre une source et un collecteur [source, p.401, édition 2024]
Le transistor est un composant électronique à semi-conducteur permettant de contrôler ou d'amplifier des tensions et des courants électriques au sein d'un circuit logique.
Transistors vs neurones
L'analogie entre un neurone et un transistor réside dans leur capacité à traiter des signaux et à contrôler leur transmission. Là où les transistors gèrent des signaux électriques de manière binaire ou analogique dans les circuits électroniques, les neurones traitent des signaux chimiques et électriques dans les réseaux neuronaux biologiques :
Transistor : dans les circuits intégrés, les transistors sont assemblés en réseaux complexes pour traiter l’information sous forme de bits (0 et 1), permettant aux ordinateurs de réaliser des calculs.
Neurone : dans le cerveau, les neurones sont également interconnectés en réseaux très complexes pour traiter des informations sensorielles, motrices et cognitives, permettant au cerveau de réaliser des fonctions d'apprentissage, de mémoire et de perception.
Transistor : un transistor a trois points de connexion principaux : l'entrée, la sortie, et la borne de commande.
Neurone : un neurone a des dendrites pour la réception d'information (équivalent à l'entrée), un axone pour transmettre le signal (équivalent à la sortie), et le soma (corps cellulaire) qui agit comme le centre de décision (équivalent de la borne de commande).
Transistor : il agit comme un commutateur ou amplificateur de signal, contrôlant le passage du courant entre deux bornes en fonction du signal appliqué à sa borne de commande.
Neurone : le neurone reçoit des signaux d'autres neurones (par ses dendrites), intègre ces signaux, puis produit un signal de sortie (potentiel d'action) transmis via l'axone si le seuil de stimulation est atteint.
Transistor : dans les circuits numériques, le transistor agit souvent en mode tout-ou-rien, passant de l’état « off » (pas de courant) à l’état « on » (courant maximal), ce qui est la base des circuits logiques.
Neurone : le neurone suit aussi une logique de type tout-ou-rien pour le potentiel d’action. Lorsqu’il reçoit suffisamment de stimulation pour dépasser un seuil, il génère un potentiel d’action. Sinon, il reste « au repos », sans émettre de signal.
Transistor : en mode analogique, le transistor peut amplifier les signaux faibles. La modulation de la tension ou du courant à la borne de commande permet de contrôler le flux de courant entre les deux autres bornes.
Neurone : le neurone intègre les signaux excitateurs et inhibiteurs reçus de plusieurs autres neurones. Si la somme des signaux reçus dépasse un certain seuil, il déclenche une réponse de sortie. Cette intégration et sommation de signaux est une forme de modulation de signal.
Transistor : le transistor a un seuil de tension ou de courant à partir duquel il commence à conduire entre ses bornes principales.
Neurone : le neurone possède également un seuil d’activation pour le déclenchement du potentiel d'action, ce qui agit comme un filtre pour éviter de répondre à des stimulations faibles ou aléatoires.
Le transistor bipolaire est le plus simple. Les circuits actuels utilisent plutôt des transistors à effet de champ, qui autorisent des densités plus élevées, mais avec des circuits plus complexes,
Transistor bipolaire
Quand la base est mise à une tension positive, le courant passe du collecteur à l’émetteur ; quand la base est mise à une tension négative ou nulle, le courant ne passe pas [source, p.401, édition 2024].
L'utilisation des transistor comme circuits logiques repose sur l'algèbre de Boole, qui repose sur deux notions :
Algèbre de Boole
Quand la base est mise à une tension positive, le courant passe du collecteur à l’émetteur ; quand la base est mise à une tension négative ou nulle, le courant ne passe pas [source, p.403, édition 2024].
On introduit l'algèbre dans ces raisonnements logiques au moyen d'une table de vérité, qui consiste à attribuer à chaque résultat deux valeurs possibles :
x | y | x*y | x+y |
---|---|---|---|
0 | 0 | 0 | 0 |
0 | 1 | 0 | 1 |
1 | 0 | 0 | 1 |
1 | 1 | 1 | 1 |
L'algèbre de Boole est numérique et logique (0 * 0 = 0), tandis que l'algèbre de l'électricité correspond à des phénomènes physiques (- * - = +).
« Les circuits ci-dessous comportent des résistances, symbolisées par des fils en zigzag, qui comme leur nom l’indique font obstacle au passage du courant. Si le courant trouve un chemin plus facile, comme par exemple un transistor à l’état passant, il ne franchira pas la résistance (plus exactement, le courant qui franchira la résistance sera faible et inférieur au seuil qui le rendrait efficace). Mais s’il n’y a pas d’autre chemin, par exemple parce que le transistor est à l’état bloqué, le courant franchira la résistance » [source, p.404, édition 2024]..
Circuit "NON". Si x=0, la base du transistor est à un potentiel nul, le transistor est bloqué ; via la résistance, le courant positif va arriver en sortie x−, qui vaudra donc 1, ce qui est bien le contraire de 0. Si x=1, le courant positif atteint la base du transistor qui devient passant. De ce fait, le point x est directement relié à la masse, donc à une tension nulle et vaudra 0, ce qui est le résultat voulu.
Circuit "OU". « Nous avons deux transistors en parallèle : pour que le courant positif parvienne à la sortie notée x+y et lui confère ainsi la valeur 1, ou le vrai, il suffit que l’un des deux transistors soit passant. Pour cela il suffit que l’une des deux entrées, x ou y, soit positive : en effet un courant positif en x par exemple l’emportera sur la mise à la masse générée par R. C’est bien le résultat attendu. ».
Circuit "ET". « Nous avons deux transistors en série : pour que le courant positif atteigne la sortie notée xy il faut que les deux transistors soient passants, et donc que les deux entrées x et y soient positives, ce qui est bien le résultat voulu, conforme à la sémantique du ET. ».
Laurent Bloch explique brillamment comment une position de mémoire élémentaire, qui représente un bit, est obtenue en combinant deux circuits NON OU de telle sorte que la sortie de l’un alimente l’entrée de l’autre, et réciproquement : source, p.409, édition 2024.
Semi-conducteurs, transistors, circuits intégrés et microprocesseurs.
Ces quatre notions, parfois confondues, sont pourtant à distinguer : les premiers sont la base matérielle des transistors, ceux-ci sont regroupés dans des circuits intégrés et ces derniers lorsqu’ils permettent avec une unité unique de faire fonctionner un ordinateur prennent le nom de microprocesseurs.
Dès 1833, Faraday constate qu’à la différence de la plupart des métaux dont la résistance augmente avec la température, certains métaux comme le sulfate d’argent sont de plus en plus conducteurs avec la hausse de la température (coefficient de température négatif)3. Un siècle plus tard, en 1931, Wilson théorise les semi-conducteurs : les électrons forment des ondes dans les solides et la conduction électrique de certains matériaux varie en fonction de divers facteurs comme la température, le courant électrique ou la lumière.
La loi de Moore (doublement du nombre de transistors présents sur une puce de microprocesseur tous les deux ans) fut observée empiriquement jusqu’aux années 2010. La contrepartie de cette loi de Moore – fondée sur la réduction de la taille des traits gravés dans le silicium permettant d’augmenter la densité des processeurs et par conséquent leur vitesse – est la « loi de Rock » (du nom d’Arthur Rock) selon laquelle le coût d’une fonderie de semi-conducteurs double quant à lui tous les quatre ans, sous l’effet de procédés de fabrication de plus en plus chers. Cependant, le mur des limites physiques des microprocesseurs, avec le fait d’approcher de la taille moléculaire, est aujourd'hui atteint ...
Fin 2004, la première entreprise au monde (tous secteurs confondus) en terme de chiffre d'affaire est la société états-unienne Nvidia qui conçoit des puces (mais sous-traite leur fabrication à l’entreprise de fonderie taïwanaise TSMC). La production de semi-conducteurs en silicium est un marché assez monopolistique, car les coûts fixes sont prépondérants, ce qui le rapproche des conditions d’un monopole naturel.
[source].Un logiciel, ou programme informatique, est un fichier constitué de commandes/instructions que l'ordinateur applique pour traiter des données, interagir avec un utilisateur ou encore contrôler du matériel.
Les logiciels se divisent généralement en deux grandes catégories :
Le modèle théorique de la "machine de Turing" forme avec le λ-calcul la base de la théorie des langages de programmation.
Laurent Bloch définit la notion de traitement de l'information comme étant une « manipulation symbolique composée d’opérations de traduction et de réécriture » . Un traitement d'information est ainsi l'équivalent informatique de la notion mathématique de calcul. L'informatique c'est donc des mathématiques appliquées par des machines. On appelle ainsi procédure effective, la suite des opérations concrètes par lesquelles s’effectue un calcul, c-à-d la suite des opérations qui à partir de certaines données produiront certains résultats, constituant ainsi un traitement. C’est pour définir sans ambiguïté des procédures effectives que Turing a imaginé la machine de Turing. En particulier, les étapes du calcul/traitement doivent être enregistrées dans une mémoire. Ainsi la machine de Turing formalise les opérations de consultation et d’affectation de la mémoire. Le calcul sera terminé lorsque la mémoire sera dans un état qui contienne le résultat recherché. La mathématique ignore cette notion d’état, aspect physique qui caractérise l'informatique [source].
Le système d'exploitation (SE) est l'ensemble des programmes dont un ordinateur a besoin pour fonctionner (démarrage, gestion de la mémoire, des matériels périphériques, etc.). Autrement dit, dans le schéma ci-dessous, le SE gère les flux de données représentés par les flèches.
La traduction entre langage alphanumérique (flèches bleues du schéma supra) et langage binaire (flèches vertes) peut se faire de deux façons :
langage interprété :
processus : le code source est traduit en langage machine à la volée par l'interprète pendant l'exécution, sans générer de code binaire complet précompilé.
avantage : le même code source peut être utilisé sur tous les types d'ordinateurs ... équipés de l'interprète approprié (un logiciel).
inconvénient : tendance à être plus lent en raison de la traduction en temps réel.
exemple : les interpréteurs JavaScript, comme ceux intégrés dans les navigateurs web, exécutent le code JavaScript des pages web.
langage compilé :
processus : le code source est entièrement traduit en langage machine (code binaire) avant l'exécution par le processeur.
avantage : rapidité d'exécution, car le code binaire est prêt à être exécuté directement par le processeur (notion de "fichier exécutable").
inconvénient : un même code source doit être compilé pour chaque type d'ordinateur (c-à-d du type de processeur et de système d'exploitation).
Interprétation vs compilation
Il y a donc un compilateur pour chaque type spécifique d'ordinateur (X86, ARM, ...). Autrement dit, pour fonctionner sur un autre type de processeur, un programme compilé doit être recompilé pour ce type d'ordinateur.
Commentaires :
Interprétation (gauche). Même si un langage interprété ne produit pas de code binaire natif avant l'exécution, les instructions doivent toujours être exécutées en langage machine car c'est la seule forme que le processeur peut comprendre. La différence réside principalement dans le moment et la méthode de traduction par rapport aux langages compilés. En résumé, les langages interprétés sont exécutés sans passer par une compilation préalable en code machine binaire, mais ils sont traduits en instructions machine au moment de l'exécution par l'interprète.
Compilation (droite). Avant de traduire le code source en code assembleur, le compilateur procède à une optimisation du code source. D'autre part, le compilateur peut directement générer du code machine (ou du bytecode, comme en Java), mais souvent il génère du code assembleur intermédiaire.
Menaces sur l'informatique libre
Les fabricants de matériels informatiques tentent d'accaparer du pouvoir commercial en déplaçant de plus en plus de contrôle vers du logiciel gravé dans la carte-mère, c-à-d en déplaçant les fonctions du SE de la partie "Mémoire" vers la partie "Processeur" dans le schéma ci-dessus. Ce faisant, les fabricant réduisent dangereusement le contrôle que peut exercer l'utilisateur sur son ordinateur via le SE. Ils se justifient en arguant que cela augmenterait la sécurité de l'ordinateur ...
Pour utiliser un ordinateur, c-à-d interagir avec le système d'exploitation (SE), une couche logicielle appelée "interface système" ou plus souvent shell – et logiquement située "entre" le SE et l'utilisateur – permet à celui-ci d'utiliser une série de commandes. Ces commandes peuvent être combinées pour constituer des algorithmes (on dit aussi routines ou programmes) qui automatisent certaines procédures.
Un processeur quelconque est caractérisé par le jeu des actions élémentaires qu’il est capable d’effectuer. Ces actions élémentaires sont appelées les primitives du processeur ("instructions machine"). Un programme pour un processeur de von Neumann est une suite de primitives du processeur destiné à l’exécuter. Chacune de ces instructions élémentaires correspond à un circuit logique du processeur considéré. L’ensemble des instructions machine et des règles de leur rédaction constitue le langage machine. Pour construire toutes les combinaisons possibles de primitives, il suffit à l'unité centrale du modèle de von Neumann de pouvoir [source p.29] :
« Un langage qui satisfait à toutes ces conditions est dit Turing-équivalent. C’est le cas des langages de programmation généraux, tels que C, Java, Lisp ou Fortran, mais il y a des langages non-Turing-équivalents et néanmoins très utiles, comme le langage SQL d’accès aux bases de données, HTML et XML pour décrire des documents, etc » [source].
Une idée capitale du modèle de von Neumann, c’est d’enregistrer le texte du programme dans la mémoire de l’ordinateur, comme les données, et de traiter ce texte exactement comme s’il s’agissait de données.
Informatique vs mathématique. « L’affectation opère une rupture radicale entre vision mathématique et vision informatique du calcul, elle y introduit un aspect dynamique, actif et concret qui est étranger aux mathématiciens. L’affectation (...) permet de modéliser un calcul par des états de mémoire successifs, bref c’est elle qui permet de réaliser des machines de Turing » [source p.83].
Ainsi l'expression i = i + 1 est fausse en mathématique, mais en informatique elle est correcte si le langage prévoit que le signe "=" n'exprime pas une égalité mais une affectation : i qui valait x vaut maintenant x+1. L'égalité pouvant être exprimée, en informatique, par le signe == (notamment en Python) ou === (notamment en JavaScript).
Une autre différence réside dans la notion d'erreur. Les erreurs de programmation se distinguent des erreurs de calcul ou de logique qui peuvent affecter une démonstration mathématique. Ainsi en informatique on peut distinguer trois types d'erreur [source] :
erreurs de syntaxe : mais le compilateur la détectera généralement et donnera des explications qui aideront à sa correction) ;
erreurs de sémantique : le programmeur a mal compris le manuel du langage, et il écrit un texte dont il pense qu’il va donner le résultat voulu, alors qu’il va donner un autre résultat, ou un programme faux, qui ne se termine pas, ou qui se termine par une erreur explicite. Les méthodes de preuve de programmes ne pourront aider que dans certains cas assez particuliers, parce qu’elles sont trop lourdes pour être appliquées à l’ensemble d’un programme (un système d’exploitation général comprend plusieurs plusieurs millions de lignes de texte, plusieurs dizaines de millions si l’on y inclut les interfaces graphiques interactives).
les erreurs techniques : l’exécution d’un programme informatique peut échouer pour une raison qui n’est pas à proprement parler une erreur de programmation mais liée au contexte technique. Ainsi, un programme qui écrit des données sur disque peut échouer si le disque est plein. La saturation de la mémoire est une autre cause d’échec courante. En principe ces circonstances sont prévisibles par celui qui lance le programme, mais pas par celui qui l’écrit.
Selon Laurent Bloch, « un énoncé mathématique est essentiellement déclaratif (le "quoi"), il décrit les propriétés d’une certaine entité, ou les relations entre certaines entités. Un programme informatique est essentiellement impératif (ou performatif, le "comment"), il décrit comment faire certaines choses. Il est fondamentalement impossible de réduire l’un à l’autre, ou vice-versa, ils sont de natures différentes. Il est par contre possible, dans certains cas, d’établir une relation entre le texte d’un programme et un énoncé mathématique, c’est le rôle notamment des systèmes de preuve de programme » [source, p.413, édition 2024].
Représentation informatique des nombres entiers [source, p.392, édition 2024]. Soit un ordinateur dont l’architecture matérielle met à notre diposition, pour représenter les entiers, des emplacements de n positions en base B (B étant paire). On peut alors représenter B n nombres différents. Ainsi une machine à mots de 32 bits autorisera des entiers compris entre - 232 / 2 et 232 / 2 - 1
Le plus grand nombre positif représentable a une valeur absolue plus faible de 1 que celle du plus petit nombre négatif représentable, parce que 0 est "avec" les nombres positifs.
Dans un ordinateur, un nombre négatif −p peut être représenté par le système du complément à deux, que l'on obtient en remplaçant chacun des chiffres de p par son complément à 1 (c’est-à dire en remplaçant chaque 1 par un 0 et chaque 0 par un 1) et en additionnant 1 au résultat. Prenons un exemple avec comme base B = 2 et n = 4 chiffres possibles. Ainsi le nombre +5 est représenté par les chiffres suivants : 0101 (cf. clipedia-txt.net/mesure#systemes-numerotation). Le complément à 1 de cette combinaison de chiffres nous donne : 1010. Additionnons 1 pour avoir le complément à 2 : 1011, qui représente −5 [source, p.393, édition 2024]. On a bien – en abandonnant la dernière retenue (puisque n=4) – que :
0 1 0 1 + 1 0 1 1 ----------- 0 0 0 0
Étapes du calcul :
- un plus un donne deux, je pose zéro et je retiens un ;
- un de retenu plus zéro plus un donne deux, je pose zéro et je retiens un;
- un de retenu plus un plus zéro donne deux, je pose zéro et je retiens un;
- un de retenu plus zéro plus un donne deux, je pose zéro et j'abandonne la dernière retenue.
L'avantage du système du complément à deux, pour le calcul automatique, est qu'il fait l'économie du signe négatif. Pour le calcul manuel on utilise plutôt le système binaire pur ;
1 0 1 (5 en binaire) - 0 1 1 (3 en binaire) ----------- 0 1 0
Étapes du calcul :
Nombre réels. Les nombres réels constituent avec les nombres imaginaire l'ensemble des nombres complexes : ℂ = ℝ +iℝ. Mais comment, dans un ordinateur, représenter les nombres fractionnaire c-à-d « avec des chiffres après la virgule » ? Dans une machine, le "nombre de chiffres après la virgule" est nécessairement limité par la taille physique des composants. C'est pourquoi les nombres fractionnaires sont représentés dans les registres des ordinateurs selon le principe de la virgule flottante, équivalente à la notation scientifique, qui consiste à écrire 197 * 106 plutôt que 197000000, selon le modèle signe × mantisse × baseexposant. La virgule flottante permet de définir une limite de l'erreur d'approximation relative d'une machine. La norme IEEE 754, qui définit différents formats (selon le degré de précision) de nombres fractionnaires, est appliquée sur la plupart des ordinateurs. Pour approfondir : clipedia-txt.net/mesure#systemes-numerotation.
La notion d'infini en informatique
L'infini est un concept mathématique (mais pas un nombre) qui est utilisé pour décrire une quantité qui ne peut être atteinte ou qui n'a pas de limite finie. Il est utilisé dans divers contextes, notamment dans les limites, les séries infinies, ou pour décrire les comportements asymptotiques.
Dans les calculs effectués par un ordinateur, l'infini n'est pas directement représenté comme un nombre concret. Ainsi en Python, on peut utiliser float('inf') pour obtenir une valeur infinie positive et float('-inf') pour l'infini négatif, et
>>> 1/float('-inf') -0.0
plutôt que 0, car 1 / ∞ représente un comportement asymptotique, en l'occurrence proche de zéro, ce qui est représenté par 0.0 dans le système à virgule flottante.
Quant à l'expression ∞ / ∞ qui est mathématiquement une forme indéterminée, on aura :
>>> float('inf')/float('inf') nan
Enfin :
>>> float('inf')+float('inf') inf
Dans le cas de l'IA générative, l'ensemble logiciel+data concerne les deux étapes supérieure du schéma suivant. L'étape "modèle" comprend (1) la conception de l’architecture du modèle ; (2) l’entraînement du modèle à l’aide des infrastructures vues précédemment et d’algorithmes qui sont des logiciels d’entraînement ; (3) le réglage fin qui prend la forme d’apprentissages supervisés [source].
Schéma simplifié de la chaîne de valeur de l’IA générative
Comme pour Google en matière de moteur de recherche, Amazon en matière de e-commerce ou Meta en matière de réseaux sociaux, cette couche applicative spécialisée tend aussi à être monopolistique.
Voir :
L'IA "symbolique", développée dans les années 1980, est caractérisée par l’utilisation de règles logiques pour résoudre des problèmes, simulant un raisonnement déductif (exemple : si..., alors...). Elle est peu performante dans les problématiques instables et ouvertes.
Pour reprendre les notions du triangle sémiotique de la linguistique (signifiant, signifié, objet : source), « l’IA symbolique ne dispose que du signifiant auquel elle associe éventuellement un objet mais elle est incapable de prendre en considération le signifié du mot, les concepts lui restent totalement étrangers, aussi, elle manipule les symboles sans avoir aucune idée de ce qu’ils sont, sans les comprendre pourrait-on dire » [source].
L’IA connexionniste, avec ses méthodes statistiques qui se rapprochent de la logique inductive, peut donner l’impression de se rapprocher davantage de ce que nous appelons communément "compréhension".
La présente section est une synthèse du rapports d'office parlementaire de la République française déposé en novembre 2024 [source].
Dès 1943, le neurologue Warren McCulloch et le psychologue logicien Walter Pitts, travaillant tous les deux sur l’action des neurones dans le cerveau humain, mettent au point un modèle de "réseau de neurones". L’idée est donc qu’un "neurone" artificiel ou formel pourrait accueillir des entrées provenant de neurones d’une couche précédente. Ce "neurone" ferait alors, tel un automate, la somme des entrées de la couche précédente, une somme qui serait pondérée par des "poids" (ces poids miment la plasticité synaptique des réseaux biologiques). Cette somme serait alors soumise à une fonction d’activation non linéaire qui, agissant comme un seuil franchi ou non, détermine si le neurone active ou non sa sortie l’application de cette fonction à la somme des valeurs issues des entrées des couches précédentes permettant ou pas d’atteindre une valeur seuil donnée.
Ensuite un autre chercheur va théoriser, sous le nom de "perceptron", les algorithmes d’apprentissage permettant de faire varier la force de connexion entre les neurones artificiels. Avec les perceptrons, le poids synaptique au sein des neurones formels va se trouver modifié et amélioré selon des processus d’apprentissage. En 1957, le perceptron monocouche permet d'automatiser le classement binaire linéaire supervisé d’une population, c-à-d un processus permettant de séparer une population en deux classes, en connaissant déjà la classe d’une partie des individus. Dans ce type de problème de classification linéaire, le classifieur permet de séparer deux classes d’une population par une droite ou un plan, que l’on qualifie spécifiquement d’hyperplan dans le cadre des réseaux de neurones. Ce réseau est ainsi capable d’apprentissage.
Prenons l’exemple d’une population dont on connaît la taille et le poids et dont on souhaite classer les individus par genre. Les caractéristiques de la population sont deux variables continues "taille" et "poids" et les deux classes auxquelles les individus peuvent appartenir sont "homme" ou "femme". On peut représenter les individus par des points situés sur un graphique en deux dimensions qui aurait pour abscisse la taille des individus et pour ordonnée leur poids. Les hommes étant généralement plus grands et massifs que les femmes, le graphique fait apparaître deux groupes de points qui représentent respectivement les hommes et les femmes et sont à peu près séparés l’un de l’autre. L’apprentissage va consister à déterminer la droite qui sépare "le mieux possible" le groupe des points représentant les hommes et celui des points représentant les femmes, pour le jeu de données d’apprentissage choisi (c’est-à-dire un ensemble d’individus dont on connaît la taille et le poids, et dont chacun dispose de son étiquette "homme" ou "femme"). Dès lors on pourra déterminer la classe probable d’un nouvel individu (en l’occurrence son genre) en connaissant son poids et sa taille, selon que le point qui le représente sur le graphique sera placé d’un côté ou de l’autre de la droite séparatrice.
Les premiers perceptrons ne sont pas capables de résoudre des problèmes non linéaires comme la disjonction exclusive ou fonction "ou exclusif" (appelée aussi XOR, connue en électricité sous la forme du montage va-et-vient et utilisée en cryptographie. (...) Pour résoudre des problèmes non linéaires, une seule couche de réseaux de neurones n’est pas suffisante : plusieurs couches de réseaux de neurones vont alors être utilisées.
Le graphique ci-contre représente les trois notions de base des réseaux neuronaux multicouches :
une couche de x neurones d'entrée : les données que l’on veut traiter sont transformées en en données numériques pour qu’elles puissent être traitées par le réseau ;
une couche de y neurones de sortie : transforme les valeurs obtenues en réponse au problème posé (par exemple, si l’on souhaite savoir s’il s’agit d’un chat ou un chien sur une image, la couche de sortie donne la réponse grâce à un neurone correspondant à la probabilité qu’il y ait un chien sur l’image et un autre neurone correspondant à la probabilité qu’il y ait un chat sur l’image) ;
La notion élémentaire de neurone formel est l'expression "physique" de la notion mathématique de fonction F telle que Y = F( Xi ) où Xi et Y sont les ensembles des valeurs pouvant être prises par les variables d'entrée xi et la variable de sortie y. Ainsi le schéma supra illustre la combinaison de deux fonctions Y1 et Y2.
Par exemple, la fonction "moyenne pondérée" peut être représentée par un réseau avec une couche intermédiaire constituée d'un seul neurone, et où chaque coefficient de pondération est associé à une connexion entre sa variable d'entrée xi et la variable de sortie yk = φ * ∑j=1 m wkj * xj
où :
• wkj : coefficients de pondération associés à la fonction yk ("poids synaptique", qui
définit la force du lien entre deux neurones) ;
• φ() : fonction de transfert de la fonction yk
Dans un système plus complexe, à deux couches, la première couche pourrait être la fonction sigmoïde et la seconde la fonction ReLU.
Bien que les réseaux à plusieurs couches soient capables de traiter des situations de classification non linéaire, avec plusieurs neurones au lieu d’un seul, il n’est plus possible de calculer la façon dont on doit entraîner le réseau pour qu’il produise de meilleurs résultats car il y a plusieurs neurones dont les paramètres influencent le résultat final d’une façon différente. Comment alors savoir quel poids synaptique ou quel biais modifier et de quelle façon pour atteindre le résultat optimal voulu ? Une solution consiste à utiliser une technique issue de la résolution des problèmes de fonctions convexes en mathématiques appelée la "descente de gradient ". L’algorithme permettant de trouver un minimum global, c’est-à-dire le point où le modèle obtient les meilleurs résultats, va prendre le nom de rétropropagation du gradient.
Pour régler les perceptrons multicouches, c’est-à-dire minimiser leur taux d’erreur, la descente du gradient doit conduire à ajuster progressivement le poids de tous les neurones au sein du modèle. L'algorithme de descente du gradient consiste à parcourir le réseau de neurones dans le sens inverse de son fonctionnement pour corriger ses erreurs en mettant à jour les poids des neurones de la dernière couche à la première.
Un phénomène biologique similaire à la rétropropagation du gradient a été observé dans les réseaux de neurones des mammifères. La rétropropagation neuronale désigne la propagation d’un potentiel d’action dans un neurone, non pas vers la terminaison de l’axone (propagation normale), mais au rebours, en direction des dendrites, d’où provenait la dépolarisation originelle [source].
Ainsi le modèle évolue grâce à un entraînement qui lui permet d’être de plus en plus performant. Celui-ci consiste, en utilisant un jeu de données d’entraînement, à mesurer l’écart entre la réponse fournie par le modèle et la réponse attendue, et à ajuster le modèle pour minimiser cet écart (appelé "fonction de perte" ou "fonction de coût").
Pour régler les poids et biais des neurones, on commence à travailler sur la fonction de perte à partir des neurones de la dernière couche. Un algorithme – dit optimiseur – est appliqué au gradient pour le « descendre » en ajustant les poids et les biais dans la direction opposée au gradient. Chaque poids et biais de chaque neurone reçoit une correction qui fait intervenir la dérivée partielle correspondante de la fonction de perte et un taux d’apprentissage. La rétropropagation proprement dite consiste à réaliser ensuite les mêmes opérations aux neurones de la couche située immédiatement en amont, puis de la précédente, etc. De cette façon, toutes les couches du modèle sont remontées une par une, depuis la couche de sortie jusqu’à la couche d’entrée.
L'apprentissage consiste notamment à déterminer la valeur des coefficients de pondération. Ainsi, pour déterminer si un prénom est masculin ou féminin, l'IA devra identifier une série de propriétés discriminantes. Par exemple, s'il s'avère que 80 % des prénoms qui se terminent par la lettre "e" sont féminins, alors un des neurones de la couche intermédiaire pourrait traiter l'identification de la dernière lettre du prénom.
L’architecture Transformer est dotée d’un mécanisme appelé « l’attention », qui lui permet d’obtenir des informations sur les mots en fonction du contexte de la phrase, y compris pour une proposition dont le sens ne se déduit pas de sa seule formulation. Par exemple, la phrase « Alice amène sa voiture rouge au garage car elle est en panne », pour être correctement comprise requiert de pouvoir (i) déterminer que le pronom "elle" renvoie au sujet et non à l'objet de la phrase ; (ii) lier l'adjectif "rouge" au nom de l'objet. Pour ce faire, un modèle doit disposer d'système d’attention.
En pratique, on va transformer les mots en vecteurs, puis calculer les liens grammaticaux, sémantiques et pragmatiques entre les différents mots d’une séquence. Une fois que le jeu de données d’apprentissage a été constitué (ici, un ensemble étendu de textes), la première étape de cette technologie consiste à découper les mots en unités ou tokens qui sont des briques élémentaires de vocabulaire servant d’unités de base pour le modèle. Cette technique permet une meilleure capacité du modèle en termes de généralisation, en particulier par rapport à des mots rares ou à des variantes linguistiques :
L’information lexicale doit être transformée en information numérique. Il s’agit d’associer à chaque unité un vecteur représentant les coordonnées du mot dans un espace possédant un grand nombre de dimensions.
Si l’on remplace chaque coordonnée des vecteurs par des couleurs, par exemple un dégradé allant du bleu au rouge avec la valeur zéro pour le blanc, on peut représenter visuellement les vecteurs des mots « plongés » (mots qui sont les objets du plongement lexical). Cela permet d’observer des propriétés intéressantes en ne regardant que les coordonnées des vecteurs plongés. Dans l’image qui suit, on constate que les mots « homme » et « femme » ont plus de similitudes entre eux, que chacun d’eux peut en avoir avec le mot « roi », ce qui est normal puisque les deux désignent un genre, alors que « roi » désigne une fonction.
Aussi, si le plongement lexical est correctement réalisé, il est possible d’effectuer des opérations sur la base du « sens » des mots, entendu comme l’ensemble des relations de proximité ou d’éloignement entre mots que l’apprentissage a permis d’identifier. Par exemple, dans cet espace, le vecteur de différences entre les mots « homme » et « roi » est similaire au vecteur de différences entre les mots « femme » et « reine ». Ainsi, on peut établir l’identité approximative telle que : king→ - man→ + woman→ ≈ queen→
On peut ainsi formaliser mathématiquement des analogies entre les mots, comme par exemple « a est à b ce que x est à y », permettant à des modèles d’affirmer que a et x peuvent être transformés de la même manière pour obtenir b et y, et vice-versa. D’un point de vue formel, ces analogies linéaires entre les mots correspondent à des relations vectorielles où les vecteurs forment dans l’espace vectoriel une structure géométrique de type parallélogramme. Ces quadrilatères ont des propriétés utiles qui peuvent être exploitées. Une analogie linéaire dans l’espace vectoriel entre tel ensemble de mots (ou de tokens) et tel autre ensemble de mots (ou de tokens) montre que leurs vecteurs sont coplanaires et que toute combinaison de ces vecteurs peut être utilisée pour réécrire les structures de relations entre ces éléments en termes statistiques (tester).
La corrélation entre les mots dans un corpus d’apprentissage est ainsi d’autant plus élevée que la distance euclidienne entre leurs vecteurs est faible. Il est donc possible de réaliser des produits scalaires entre deux vecteurs au sein d’un espace vectoriel et de comparer les produits scalaires de ces vecteurs pour voir lesquels « vont dans la même direction », témoignant de leurs proximités sémantiques.
Vers l'auto-apprentissage. Actuellement les modèles d'IA apprenne partir d’échantillons de données non annotées certes mais, dans un premier temps, l’apprentissage reste supervisé : les réseaux de neurones sont initialisés avec des étiquettes qui aident à déterminer les premiers poids synaptiques de chacun des réseaux. Ce n’est que dans un deuxième temps que l’apprentissage devient non supervisé, les échantillons de données ne sont pas annotés et le modèle générant génère automatiquement les étiquettes associées, sans intervention humaine. On parle "d'apprentissage auto-supervisé".
Donnés synthétiques. En plus des données préexistantes, issues du monde réel et du monde virtuel qu’est Internet, les modèles d’IA générative ont de plus en plus recours à des données créées artificiellement dont les propriétés statistiques prédictives sont proches des données réelles mais dont les conditions de mise à disposition sont moins chères, plus accessibles ou ne contiennent pas d’informations personnelles ou sensibles. En tant que données de nature secondaire, dérivées de corpus qui peuvent eux-mêmes contenir des biais, les données synthétiques posent à la fois la question des biais liés aux données en général mais elles peuvent aussi apporter leurs propres biais en plus (biais de représentation, biais de distribution, biais de modèle ou encore biais d’utilisation), et induire des erreurs dans les modèles d’IA, si elles ne reflètent pas correctement la réalité ou si elles sont mal calibrées. Elles peuvent aussi renforcer des biais existants et déformer les résultats produits ensuite par les modèles d’IA. Enfin, elles peuvent enfermer les modèles dans une boucle autodestructrice, appelée en anglais autophagous ou self-consuming loop, dégradant progressivement la qualité et/ou la diversité des données synthétiques et menant à un échec du modèle [source].
Outre les données synthétiques, les modèles disposent d’un autre moyen de généralisation sans recourir à des données réelles : il s’agit d’un mode d’apprentissage où le modèle est entraîné à reconnaître et à catégoriser des objets ou des concepts sans avoir vu d’exemples de ces catégories ou concepts au préalable. On parle à ce sujet de Zero-Shot Learning (ZSL). Par exemple un modèle d’intelligence artificielle qui n’a jamais été entraîné à reconnaître un zèbre peut toutefois le reconnaître car il a été formé à reconnaître un cheval.
Des logiciels d'apprentissage pour IA sont PyTorch et TenserFlow.
Vocabulaire :
les modèles pré-entraînés sur de grands corpus peuvent être optimisés pour réaliser une nouvelle application, en utilisant peu de données supplémentaires spécifiques à cette tâche ;
les transformers s’appuient sur l’hypothèse distributionnelle selon laquelle des mots qui se trouvent dans des contextes d’apparition similaires tendent à avoir des sens similaires ;
dans un modèle de fondation de type LLM, les textes sont décomposés par un algorithme en suites de caractères, appelés tokens ;
auto-apprentissage sur les données du corpus divisées en tokens représentés sous forme de vecteurs de "plongement lexical" (word embedding) ;
l’hypothèse distributionnelle et les modèles vectoriels de représentation des tokens permettent de calculer une distance entre ceux-ci. Quand cette distance est petite, la proximité des vecteurs dans l’espace vectoriel correspond à une certaine parenté. Les vecteurs des tokens se retrouvant dans des contextes similaires dans le corpus d’apprentissage ont tendance à devenir proches les uns des autres. De plus, un transformer met en œuvre un mécanisme de calcul appelé « mécanisme d’attention », qui permet d’ajuster le poids de chaque token en fonction de tous les autres. Un transformer apprend ainsi les régularités (relations) les plus saillantes entre les tokens, sans être influencé par l’ordre de ceux-ci. ;
un paramètre clé est celui de la « température » qui exprime le degré d’aléa dans le choix des tokens. À une température élevée, le modèle est plus « créatif » car il peut générer des sorties plus diversifiées, tandis qu’à une température basse, le modèle tend à choisir les sorties les plus probables, ce qui rend le texte généré plus prévisible.
Les réseau de neurones peuvent conduire à toutes sortes d'applications : classification, recommandation, prédiction, vision, génération de contenus. La génération de contenus textuels a donné l'IA conversationnelle.
L'IA conversationnelle constitue la partie émergée de "l'iceberg IA", en offrant le moyen le plus intuitif d'interagir avec l'IA. Elle repose sur des méthodes statistiques, appelées modèles de langage, visant fondamentalement à prédire le mot suivant dans une séquence de mots.
L'agent conversationnel (dont le plus célèbre est ChatGPT) est capable de discuter avec l'utilisateur sur n'importe quel sujet, et en produisant des phrases dont la syntaxe fait sens. La performance est véritablement bluffante. Cependant il importe d'interpréter toujours avec un sens critique les affirmations produites par les agents conversationnels, car ils peuvent produire des affirmations fausses et des raisonnements "logiques" erronés. La raison en est que l'agent conversationnel ne fait rien d'autre que "d'inventer" des réponses statistiquement probables en termes de cohérence syntaxique, et de proposer la plus probable.
Exemple. En novembre 2023, chatGPT donnait une réponse aberrante à la question : "Si 80% des prénoms qui se terminent par la lettre e sont féminins, quelle est la probabilité qu'un prénom contenant la lettre e soit féminin ?"). La réponse était aberrante car il proposait un raisonnement suivi d'une réponse chiffrée, alors que la question posée n'a pas de réponse précise car elle ne fournit pas toutes les données requises. Si on lui répondait que sa réponse est fausse, il proposait alors une autre réponse du même type, et donc toute aussi absurde (PS : en septembre 2024 ChatGPT fournissait une réponse qui me paraît sensée). Notez que si à la question "Quelle est la capitale de la France ?" il vous répond "Paris", et que vous répondez "C'est faux", alors il persistera dans sa réponse, car la probabilité de vraisemblance que son modèle a calculé est très probablement quasiment égale à 100 %, étant donné la trivialité de la question.
Suggestion aux développeurs de modèles conversationnels : les réponses devraient être systématiquement accompagnées de leur probabilité de vraisemblance.
Enfin, dans ses réponses, un modèle de langage peut faire appel à des modèles correspondant à d'autres type d'IA, par exemple pour la reconnaissance d'image. Ainsi lorsque je réalise un schéma pour représenter des notions complexes (par exemple le schéma supra "Interprétation vs compilation") je peux en télécharger le fichier image dans une conversation, et demander à l'IA conversationnelle de la commenter. L'agent conversationnel est capable d'en interpréter le contenu grâce à son modèle de reconnaissance d'image.
Les modèles conversationnels sont pourvus d'une fonction d'apprentissage automatique (cf supra #reseaux-neurones-apprentissage), fonctionnant sur base d'une banque de données collectées sur Internet (sites officiels, Wikipedia, ...). Ils ne sont pas pour autant laissés à eux-mêmes : des fonctions et paramètres sont déterminés par leurs développeurs, afin de minimiser la production de résultats aberrants ou politiquement incorrects (notions d'apprentissage supervisé et filtrage).
Soulignons que dans l'apprentissage du langage par l'IA, la grammaire ne joue pas un rôle central, elle n'est qu'une propriété émergente : le réseau neuronal ne fait que repérer des régularités, ce qui est exactement comment opère l'apprentissage naturel du langage par les humains, c-à-d par immersion plutôt que par l'étude de la grammaire et du vocabulaire. De même les démonstrations mathématique se font sans logique, mais uniquement via les probabilités conditionnelles.
Un modèle de base peut conduire à différents types d'application. L'un et l'autre ne sont pas nécessairement réalisés par la même organisation. Le logiciel libre est particulièrement bien adapté à ce business modèle. Malheureusement, force est de constater que les modèles de langages actuels ne mentionnent pas systématiquement leurs sources, ce qui empêche d'en vérifier la qualité et facilite la violation des droits d'auteurs.
Une comptabilité nationale "tordue" et anti-sociale ?
Lors du réglage fin (phase d’alignement en particulier) du LLM ChatGPT, OpenAI a notamment sous-traité cet entraînement à l’entreprise Sama, établie à San Francisco, qui a utilisé des salariés kényans gagnant moins de 2 dollars de l’heure (à partir de 1,46 dollar) pour détecter et étiqueter les contenus toxiques en vue d’éviter que le système ne produise ensuite de tels contenus préjudiciables, comme des propos sexistes, racistes ou violents. Cette information a été rendue publique en 2023 par le magazine Time, dont l’article soulignait que les travailleurs kényans, outre le fait d’être très mal payés, ont été exposés à des contenus traumatisants (pédophilie, nécrophilie, violences extrêmes, viols et abus sexuels, etc.). Un salarié a même décrit son travail comme relevant de la torture et un autre, relayé par un article du Guardian du 2 août 2023, explique avoir été complètement détruit à la suite de cette expérience, quatre des 51 salariés kényans ont même demandé à leur gouvernement d’enquêter sur les conditions de leur « exploitation » et sur le contrat liant Sama à OpenAI1. Cette dernière a refusé de commenter ces révélations tandis que Sama a assuré la mise à disposition 24 heures sur 24 et 7 jours sur 7 de thérapeutes pour ses modérateurs et le remboursement des frais de psychiatres.
L’appât du gain n'est évidemment pas étranger à cette situation, ce qui montre le rôle bénéfique que pourraient jouer des entreprises (100%) publiques dans le développement de l'IA, ... si seulement la volonté politique existait, ce qui est peu probable tant que le système politique n'aura pas évolué vers la démocratie directe.
Application | Modèle de base | Licence |
---|---|---|
chatgpt.com | GPT | Propriétaire |
claude.ai | Claude | Propriétaire |
gemini.google.com | PaLM | Propriétaire |
meta.ai | LLaMA | Meta Llama 3 Community License |
mistral.ai | Mixtral | Apache 2.0. |
perplexity.ai | Multiple + Perplexity | ? |
n.a. | Wudao | n.a. |
Source : comparia.gouv.fr
N.B. Avantages de Mistral pour de petites organisations : licence la plus libre, tourne sur un ordinateur à 800 euros [source].
« L’adaptation d’un modèle de fondation à une application spécifique repose sur un entraînement supervisé du modèle de fondation sur des données annotées – impliquant le plus souvent une annotation humaine – qui permettent d’affiner les résultats du modèle. Ce réglage fin supervisé (SFTpour Supervised Fine-tuning) consiste à entraîner le modèle général pré-entraîné en vue de répondre spécifiquement à certaines tâches, à l’aide d’un jeu de données plus restreint, plus organisé que les données générales d’entraînement et impliquant le plus souvent une annotation humaine ».
« Ce second entraînement est suivi par une troisième phase dite "d’alignement" du modèle qui s’effectue grâce à l’apprentissage par renforcement. Il est attendu du modèle qu’il soit le plus possible en phase avec les attentes ou les préférences d’un utilisateur humain et pour cela le modèle d’IA va apprendre les réponses les plus souhaitables à partir de retours sur ses actions (dans une logique de récompense : du type "bonne réponse" ou "mauvaise réponse"). En pratique, il peut s’agir d’un alignement sur les normes éthiques et socialement acceptables, de la recherche de discours politiquement correct par rapport à des valeurs morales perçues comme convenables, ou encore d’un bannissement de certains propos offensants, tels que l’emploi de termes racistes ou sexistes, etc., en pénalisant les retours du modèle qui contiendraient de tels propos. Une variante sans annotation humaine est possible, avec une IA spécifiquement programmée selon des principes moraux et l’on parle alors d’apprentissage par renforcement avec retour de l’IA (Reinforcement Learning with AI Feedback ou RLAIF) » [source].
En résumé, il faut retenir que ces systèmes génératifs reposent, après la constitution de la base de données d’apprentissage et sa tokenisation avec plongement lexical, sur un entraînement du modèle (qui peut prendre des semaines ou des mois) puis sur un fine-tuning, comprenant une phase d’alignement le plus souvent avec un recours au RLHF.
Liste d'IA conversationnelles
Lorsqu'il s'agit de reproduire des capacités cognitives humaines, l'intelligence artificielle consomme énormément plus d'énergie que le cerveau humain (pour un traitement x, de y données, à une vitesse z). Avec une consommation énergétique journalière équivalant à deux bananes, l'efficacité énergétique du cerveau humain est époustouflante [source].
Rien d'étonnant à cela. L'intelligence naturelle, étant le résultat d'un processus évolutif de plusieurs millions d'années [source], est nécessairement d'une efficacité redoutable. Par conséquent, en vertu du premier principe de la thermodynamique (rien ne se créé, rien ne se perd), la propension des ordinateurs à surpasser les capacités cognitives des humains ne peut "venir de nulle part", et doit nécessairement impliquer une consommation plus élevée d'énergie.
Un processeur, c’est comme une résistance : presque toute l’électricité qu’il consomme est dissipée en chaleur. C’est pourquoi, en plus de consommer de l’énergie pour faire tourner ses serveurs, un data center doit être climatisé afin de préserver l’intégrité des circuits électroniques.
La seconde couche du schéma ci-dessous (infrastructure) se subdivise en (1) la collecte et le nettoyage de données ; (2) le stockage de données dans de vastes data centers ; (3) l’informatique en nuage (cloud) pour les calculs ; (4) lors de la phase de développement des modèles, le recours spécifique à des supercalculateurs. Les coûts sont immenses, croissants et ont des impacts environnementaux considérables [source].
Schéma simplifié de la chaîne de valeur de l’IA générative
D'après une étude réalisée par Digital Power Group publiée en 2013 [source] les coûts énergétiques du numérique sont largement cachés, la partie connue n’étant que la pointe de l’iceberg. L’économie numérique de la planète consomme déjà 50% d’énergie de plus que l’aviation du monde entier. Les datacenters ne représenteraient que 20% de l’électricité consommée par les appareils et réseaux numériques, les 80% restants étant très dispersés. Selon DPG la demande d’usage des centres de données augmentera plus vite que leurs gains en efficacité énergétique. Ces tendances vont rendre nécessaire l’usage de plus de charbon, estime l’étude, qui est sponsorisée par deux organisations du secteur minier US [source].
Si l’on considère la totalité de son cycle de vie, le simple envoi d’un mail d’1 mégaoctet (1 Mo) équivaut à l’utilisation d’une ampoule de 60 watts pendant 25 minutes, soit l’équivalent de 20 grammes de CO2 émis. On ne s'étonnera donc pas de constater que le secteur des nouvelles technologies représente à lui seul entre 6 et 10 % de la consommation mondiale d’électricité, soit près de 4 % de nos émissions de gaz à effet de serre. Environ 30 % de cette consommation électrique est imputable aux équipements terminaux (ordinateurs, téléphones, objets connectés), 30 % aux data centers qui hébergent nos données, et 40 % aux réseaux, les fameuses "autoroutes de l‘information" [source].
Selon certaines estimations, à la fin des année 2020 la consommation d’énergie des appareils informatiques consommera 60 % de la quantité totale d’énergie produite, et deviendra totalement insoutenable d’ici 2040. Une solution consiste peut-être à remplacer les actuels processeurs électroniques (qui utilisent des électrons) par des processeurs optiques (qui utilisent des photons, lesquels ne génèrent pas de chaleur et se propagent plus rapidement) [source].
Enfin la consommation énergétique des nouvelles technologies n’est qu’un aspect du défi environnemental qu’elles posent. Ainsi nos smartphones contiennent des dizaine de différents métaux et terres rares (or, cuivre, nickel, zinc, étain, mais aussi arsenic, gallium, germanium, thallium, tantale, indium, ...) qui sont extraits du sous-sol en utilisant des techniques particulièrement destructives et des produits nocifs pour l’environnement comme l’acide sulfurique, le mercure et le cyanure [source].
S'il fait peu de doute que l'on produira avant la fin du siècle des robots humanoïdes ressemblant physiquement parfaitement aux humains, il subsiste par contre quelques doutes concernant leur ressemblance psychique, notamment la capacité à :
D'autre part, pourrions-nous fabriquer ces machines de telle sorte que leurs différentes reproductions puissent être consciente de leur individualité, tout en étant capables de constituer des groupes partageant des valeurs communes (cultures, ethnies, ...) et par rapport auxquels ces machines éprouveraient un sentiment d'appartenance, ... mais qu'elles pourraient par ailleurs rejeter, par exemple en raison d'un parcours "personnel" devenu incompatible avec celui du groupe ?
Il fait peu de doute que le génie humain arrivera à créer des machines capable au moins d'imiter tous les traits psychique de la nature humaines. Cependant, d'un point de vue économique, et notamment en termes de consommation énergétique, nous avons vu que cela n'aurait aucun sens.
Mais si la nature est si efficace, pourquoi ne pas fabriquer des machines à partir d'éléments biologiques ... ?
L'ingénierie biologique est déjà en train de développer des ordinateurs entièrement composés d'éléments biologiques. Nous allons donc très bientôt être en mesure de créer des "intelligences" biologiques.
Ainsi une voie de l'IA biologique consiste, au lieu de développer des algorithmes qui imitent le fonctionnement des neurones humains, à construire du "hardware biologique" spécialisé dans le machine learning, à partir de cellules vivantes [source].
Dans ces conditions, que restera-t-il des critiques de l'IA qui soulignent que la spécificité de l'intelligence humaine réside dans son incorporation dans un être biologique. Imaginez ainsi un robot humanoïde biologique, doté d'une AI, qui "naîtrait" dans une famille d'accueil, expérimentant ainsi tout l'apprentissage des enfants humains, qui forme la base de la personnalité d'un individu (son vécu personnel). On pourrait rétorquer que ces robots peuvent être programmés biologiquement. Mais la programmation biologique existe aussi chez les humains, par exemple sous forme de publicités et de propagande. Dans ces conditions, subsisterait-il encore une différence fondamentale entre humains et robots humanoïdes biologiques ?
Nous allons évoquer ici deux risques liés à l'IA : hallucinations, risque de normalisation, effet boîte noire, et risque existentiel.
Les IA génératives ont une tendance intrinsèque à « halluciner », c’est-à-dire à générer des propos dénués de sens ou des réponses objectivement fausses sans émettre le moindre doute. Elles produisent des résultats vraisemblables mais pas nécessairement vrai. Ainsi un professeur de droit a ainsi découvert que ChatGPT avait inventé un cas de harcèlement sexuel et fait de lui l’une des personnes accusées ! [source].
« Il existe en fait une latitude donnée aux modèles en termes de créativité de leurs prédictions, qui porte le nom de "température". Les modèles à basse température sont plutôt factuellement fidèles aux informations issues des données d’entraînement tandis que les modèles à haute température introduisent plus d’aléatoire, avec la sélection de tokens statistiquement probablement les moins liés. Ces derniers modèles sont donc plus créatifs et parfois trop, ce qui peut être pertinent pour trouver des idées originales ou écrire de la poésie. Cette créativité peut évidemment être indésirable dans de nombreux autres cas où les outputs insensés ou faux doivent être le plus souvent possible évités. (...) Outre ces hallucinations et erreurs factuelles, les IA connexionnistes sont, en dépit de leur puissance, affectées d’une incapacité à se représenter le monde ou à faire preuve de logique (de sorte) qu’il est facile de piéger ces IA génératives » [source].
Ainsi le 12 décembre 2024 il a été constaté qu'au problème simple "Alice a 4 sœurs et 1 frère. Combien de sœurs a le frère d’Alice ?", ChatGPT-4o a donné une réponse fausse : "Le frère d'Alice a 4 sœurs. Explication : Alice a 4 sœurs et 1 frère. Cela signifie que toutes les personnes mentionnées, y compris le frère, partagent les mêmes sœurs. Ainsi, le frère d'Alice a également les 4 mêmes sœurs". Il éprouve en outre de grandes difficultés à profiter de l'aide qu'on lui donne : constater]. Les IA génératives ne "raisonnent" pas au sens où nous l’entendons, elles ne font que des prédictions statistiques. Contrairement aux modèles symboliques, elles n’ont pas accès à une base de données de connaissance déterminées, mais s’appuient sur une construction statistique destinée à prédire une suite de mots probable ou plausible. « En plus de cela, les données disponibles pour un LLM donné sont arrêtées dans le temps au moment de leur entraînement, elles ne peuvent pas être facilement actualisées une fois leur entraînement terminé, à moins de relancer un nouvel entraînement et de produire une nouvelle version du modèle, ce qui s’avère complexe et coûteux pour de grands modèles déjà diffusés sur le marché. (...) Les combinaisons entre les raisonnements logiques propres à l’IA symbolique et les généralisations statistiques par induction que sont les IA connexionnistes sont une réponse possible aux hallucinations » [source]. C'est la notion d'IA "neuro-symbolique" ou encore "symboliconnexionniste", qui combine un raisonnement logique explicite propre aux IA symboliques et un raisonnement statistique propre aux IA connexionnistes pour obtenir un bon modèle cognitif informatique, à la fois précis et riche. C'est déjà le cas de AlphaGeometry.
Or il est prévu que dans la prochaine génération d'ordinateur, l'IA sera installée entre l'utilisateurs et l'ensemble logiciel composé du système d'exploitation et des applications. C'est la notion "d'agentivité" de l'IA, qui pose la question de la perte de contrôle des utilisateurs sur leur ordinateur.
L'IA, telle qu'elle est conçue aujourd'hui, s'appuie principalement sur des données et des publications humaines, ce qui l'amène à refléter souvent les consensus dominants dans les domaines qu'elle traite. Cela peut potentiellement poser problème si l'IA contribue à renforcer des positions majoritaires au détriment d'une prise en compte adéquate des idées ou des recherches non consensuelles.
Il existe un risque sérieux de blocage ou de réduction de la diversité des idées scientifiques, si l'IA finit par privilégier systématiquement le consensus établi sans reconnaître l'importance des débats contradictoires. La méthode scientifique repose précisément sur la remise en question continue, et l'histoire des sciences montre que ce sont souvent les idées marginales ou non consensuelles qui, avec le temps et les preuves, conduisent à des avancées significatives.
Le danger serait que l'IA, en jouant un rôle de filtre d'information ou de support à la décision dans des contextes scientifiques ou politiques, renforce l'autorité des thèses dominantes, rendant plus difficile la reconnaissance des perspectives alternatives. Si l'IA est perçue comme un moteur de validation des consensus actuels plutôt que comme un facilitateur du débat contradictoire, cela pourrait aller à l'encontre du principe fondamental de révision constante inhérent à la méthode scientifique (notion de "révisionnisme scientifique").
Pour éviter ce risque, il est essentiel de s'assurer que les systèmes d'IA soient conçus non pas comme des arbitres du consensus, mais comme des outils capables de présenter une gamme diversifiée d'opinions et de preuves, y compris celles qui contestent le statu quo. Cela implique de maintenir une transparence sur les sources et les processus utilisés par l'IA pour produire ses réponses, ainsi que d'encourager une approche équilibrée qui intègre les recherches non consensuelles, même si elles sont minoritaires à un moment donné.
Le "consensus" au service du big business et de la géopolitique
La notion de consensus a été invoquée – par la presse, les gouvernements et les autorités scientifiques – pour promouvoir des vaccins anti-covid ou, encore actuellement, les "technologies vertes". Dans un tel contexte où les scientifiques non-consensuels sont l'objet de dénigrements médiatiques voire de sanctions professionnelles, un pseudo "consensus scientifique" peut être fabriqué par intimidations.
Le consensus peut même être inscrit dans le marbre de la législation. Ainsi dans le cas des crimes de guerre commis en 1940-45, le révisionnisme historique a été criminalisé par des lois dites "mémorielles". Or une constante avérée de l'histoire est pourtant que celle des guerres est écrite par les vainqueurs, en diabolisant les vaincus et en minimisant les crimes commis par les vainqueurs.
« Les IA posent la question de leur transparence car elles sont souvent opaques, en particulier les algorithmes de Deep Learning. Il existe en réalité deux opacités : celle liée à la technologie d’une part, celle qui résulte du manque de transparence des entreprises d’autre part. Il existe en effet d’un côté les difficultés de compréhension du fonctionnement précis des modèles d’IA. Les réseaux de neurones profonds, surtout avec leurs milliards de paramètres, sont si complexes qu’il n’est plus possible – même pour les meilleurs développeurs – d’expliquer pourquoi telles ou telles entrées parviennent à telles ou telles sorties, seules les entrées et les sorties du système peuvent être observées : c’est cet aspect qui conduit à parler des IA comme de "boîtes noires" (...) Et il existe une autre opacité, qui aggrave la première et qui provient des entreprises en tant que fournisseurs de ces modèles. Celles-ci refusent en effet de faire la transparence sur leurs processus internes de développement et de gouvernance, invoquant la concurrence entre les entreprises ou des raisons de secret commercial voire de sécurité. (...) Avec ces deux formes d’opacité qui se renforcent l’une l’autre, on voit que l’IA pose un double défi pour son explicabilité.» [source].
Certains scientifiques, dont des fondateurs de l'IA, avertissent qu'il existe un risque existentiel, pour le genre humain, qu'une AI qui ne serait plus dépendante des humains, tout en étant en compétition avec eux pour les ressources énergétiques, vitales pour les deux groupes, en arrive à la conclusion qu'il lui faut éliminer le genre humain.
Des mesures pour limiter le rique existentiel de l'IA sont :
Cependant, ces mesures pourraient ne pas être suffisamment flexibles pour gérer des situations complexes et imprévues impliquant des systèmes d'IA avancés.
Plus fondamentalement, est-il possible de contrôler efficacement un système dont on ne comprend pas le fonctionnement ? Ainsi le grand nombre de paramètres traités et le degré d'abstraction ainsi atteint par cette technologie essentiellement inductive qu'est l'IA sont tels que les meilleurs spécialistes ne comprennent pas toujours comment exactement les modèles d'IA complexes – tels que les réseaux de neurones profonds utilisés dans des tâches comme le jeu de Go – arrivent à trouver des stratégies inédites que les humains n'avaient pas imaginées, et qui s'avèrent bien plus efficaces.
Cette problématique est d'autant plus prégnante si l'IA arrive à surpasser l'ensemble des capacités cognitives des humaines, phénomène hypothétique, parfois nommé singularité.
Cependant, les chercheurs en IA sont en train de développer des techniques pour examiner et analyser les stratégies imaginées par l'IA.
La chaîne de valeur de l’intelligence artificielle est donc complexe composée de couches, chacune souvent proche de conditions de monopole naturel. Aucune puissance n’est en mesure de posséder aujourd’hui l’ensemble de cette chaîne de valeur sur son seul marché intérieur, seule caractéristique à même de donner une véritable souveraineté en IA. Dans l’hypothèse où cela arriverait, l’État concerné disposerait alors d’un contrôle complet sur le développement des systèmes d’intelligence artificielle. Même les États-Unis, acteur superdominant du secteur, dépendent encore largement de la fabrication des puces en dehors de leur territoire. Les coûts correspondants au développement de chacune de ces couches sont considérables. Compte tenu de ces coûts très significatifs, les modèles de pointe ne sont et ne seront donc développés, ceteris paribus, que par de très grandes entreprises technologiques. Les petites entreprises, tout comme les universités et les organismes publics de recherche, rencontreront de plus en plus de difficultés à développer des modèles avancés d’IA, du fait de leurs ressources limitées [source].
Schéma simplifié de la chaîne de valeur de l’IA générative
En particulier, la fabrication de cartes graphiques (graphics processing unit ou GPU), domaine hautement capitalistique, est dominé par les entreprises américaines Nvidia, AMD et Intel. Idem aux trois niveaux supérieurs, comme en témoigne l'acronyme MAAAM désignant, dans l’ordre en terme de capitalisation boursière, Microsoft, Apple, Alphabet, Amazon et Meta.
Alors que ces géants du numérique pouvaient être considérés comme potentiellement menacés par les géants chinois Baidu, Alibaba, Tencent et Xiaomi (BATX) il y a quelques années, il apparaît aujourd’hui que la Chine rencontre en réalité de plus en plus de difficultés à rivaliser sur le marché mondial, en termes de valorisation financière et commerciale de ses produits, avec les géants américains, dont la croissance creuse l’écart jour après jour [source].
lmarena.ai permet de suivre en temps réel la hiérarchie de la puissance des systèmes d’IA et de leurs modèles.
Alors que les capacités des LLM pouvaient traditionnellement être extrapolées sur la base des performances de modèles similaires de taille plus petite, les très grands LLM actuels présentent des capacités émergentes : leur déphasage discontinu les conduit en effet à développer des capacités substantielles qui ne peuvent pas être prédites simplement en extrapolant les performances de modèles plus petits. Le fait que ces propriétés ne soient pas anticipées par les concepteurs et ne soient pas contenues dans les programmes initiaux des algorithmes pose question. Ces capacités apparaissent après coup, parfois après le déploiement public des modèles, justifiant une vigilance par rapport à la mise sur le marché des modèles. L’article cité recense des centaines de capacités émergentes, dont le raisonnement arithmétique, la passation d’examens de niveau universitaire ou encore l’identification du sens désiré d’un mot.
La place occupée par les solutions open source est (heureusement) grandissante, comme en témoigne le nombre de projets liés à l’IA développés au sein de la plateforme GitHub. La part des modèles en open source ne fait que croître : 33,3 % en 2021, 44,4 % en 2022 et 65,7 % en 2023 [source].
Comparateur d'ouverture de modèles d'IAG : peren.gouv.fr/compare-os-iag/
Développer un concurrent de Wikipédia qui serait modéré uniquement par une IA. Actuellement, la modération est le fait d'utilisateurs non identifiables. Ainsi les pages "Utilisateur" des éditeurs et modérateurs de Wikipédia sont des simulations d'identification (exemple), ce qui ouvre la porte au contrôle de certains sujets par des groupes bien organisés et financés.
Auteur : F. Jortay | Contact : | Suivre : infolettre