Qui donc connaît les flux et reflux réciproques
de l'infiniment grand et de l'infiniment petit,
le retentissement des causes dans les précipices de l'être,
et les avalanches de la création ?
(Victor Hugo, Les Misérables)

vendredi 27 juin 2014

Rémy Lestienne et l'Emergence, II (Billet N° 9)

Suite à l'exposé de Rémy Lestienne devant la commission de Cosmologie de la SAF le 17 mai 2014, j'ai abordé, dans mon billet du 8 juin 2014 (billet N° 8) la problématique de l'Emergence en Physique. Je poursuis maintenant mon propos, en revisitant le second volet traité par Rémy Lestienne,  à savoir,  l'Emergence dans les Sciences du Vivant et les Sciences du Cerveau.

La relecture de mes notes et du texte même de l'exposé, mis en ligne sur le site de la SAF, m'amène  en effet à compléter ce billet précédent ; focalisé sur l'Emergence en Physique, je n'ai pas assez prêté attention au fait que Rémy Lestienne a centré la majeure partie de son discours sur ce second volet, biologique et cognitif. Il a avancé, en les détaillant, des exemples concrets : travaux de Craig Venter et reconstruction de l'ADN d'une bactérie vivante, interprétations d'images par le cerveau, travaux de Robert Sperry sur les capacités cognitives et les états de conscience chez des patients "commissurotomisés", c.a.d. ayant du subir une opération, à l'issue de laquelle les deux hémisphères du cerveau sont déconnectés.

Je reprends donc ici le fil de mon résumé "augmenté", toujours avec le souci d'entrer dans les références, pour mieux comprendre les développements présentés.



Emergence et Sciences du Vivant


L'apparition de la vie sur la Terre est très souvent associée à la notion d'émergence. Mais cette association n'a de sens que si ce terme d'émergence n'est pas seulement synonyme du terme "apparition".  Lestienne aborde le sujet par le biais de la biologie de synthèse, en tant qu'elle se fixe pour but - je cite - de "franchir, au laboratoire, le seuil de l'apparition du vivant, en construisant un être vivant de toutes pièces, à partir de composants totalement inertes"

Lestienne mentionne ainsi la reconstruction, en laboratoire, de l'ADN d'une espèce de bactérie  par l'équipe de Craig Venter en 2010 et son incorporation réussie dans la cellule bactérienne d'une espèce voisine. Il s'agit bien d'un thème de grande actualité : Le numéro de juin 2014 de la revue "Pour la Science", y consacre, notons le ici, tout un dossier intitulé "Réinventer le vivant, quels enjeux pour la biologie de synthèse ?" Attardons nous un instant sur deux articles de ce dossier :
  • Le premier article  présente une modélisation mathématique du cycle de vie d'une cellule simple. Cette modélisation rassemble un certain nombre de modèles partiels, représentant chacun un processus métabolique ou reproductif particulier.  Elle est mise en oeuvre dans un simulateur informatique ; les données extraites des simulations, comparées aux observations du cycle de vie d'une cellule réelle, permettent de valider la modélisation ou d'en corriger les composants.
  • Un second article présente les réussites et les difficultés actuelles de certaines recherches en  "ingénierie" du vivant. Par delà les directions prises par ces travaux, il s'agit bien d' ambitions industrielles, visant à standardiser la fabrication de composants de base indépendants ainsi que leur assemblage, dans des circuits biologiques complexes et fonctionnels.
Cette attention portée à la biologie de synthèse aboutit me semble-t-il, vis-à-vis de la question Réductionnisme/Emergentisme, à deux impressions opposées :
  • La première impression est en faveur des thèses réductionnistes : la possibilité de modéliser correctement le fonctionnement d'une cellule en couplant des modèles partiels indépendants, l'espoir d'arriver à fabriquer des "bio-briques" pouvant être assemblées, avec le même fonctionnement, dans plusieurs circuits biologiques différents, tout cela laisse prévoir en effet la faisabilité de la construction d'un objet biologique complexe - et assurant un fonctionnement préalablement assigné - à partir d'éléments simples en interaction.
  • La seconde impression laisse un doute : tous ces exemples traitent en effet d'une re-construction : à partir des connaissances acquises sur la structure et le fonctionnement d'êtres vivants existant déjà ; l'objectif est simplement de recopier cet existant par des procédés standardisés, en y introduisant toutefois certaines modifications. Nulle part, dans les travaux mentionnés, il n'est question d'expériences où apparaitraient "spontanément", à partir de molécules pré-biotiques, des objets qu'on pourrait qualifier de vivant.  

 Emergence et Evolution


Le dernier point rappelle que dans tout ce qui précède, je n'ai considéré l'émergence que sous l'angle du rapport entre un Tout et ses Parties ; autrement dit, sous l'angle du lien entre le comportement d'un collectif, observable à son échelle, et les propriétés individuelles de ses composants. C'était notamment le parti-pris du billet précédent.

Mais Rémy Lestienne a mentionné aussi l'Emergence comme processus,  se déroulant dans le temps, possiblement avec lenteur, et faisant apparaître des objets, des structures, des propriétés antérieurement inexistantes. C'est ce qu'il appelle l'Emergence diachronique. Un exemple typique est l'apparition de la vie et l'évolution vers des formes de vie de plus en plus complexes ; à d'autres échelles de temps, et dans d'autres domaines, les transformations au sein des sociétés humaines ; celles en oeuvre dans le cerveau lors de la toute petite enfance, etc.

Quel est le rapport entre les deux approches de l'émergence ? Faisons simplement une remarque : dans le domaine biologique comme dans le domaine social, le temps du collectif est souvent bien plus long que le temps de ses composants : les cellules se renouvellent constamment au sein d'un organisme ; les individus naissent, vivent et meurent, alors que la société garde ses institutions et ses valeurs. Et même, pour prendre un exemple dans le domaine physique, les étoiles naissent, vivent et meurent, alors que la structure spatiale de la galaxie qu'elles forment reste la même. L'organisation du collectif subsiste et impose ses contraintes aux nouveaux arrivants. On retrouve à un niveau temporel ce que l'on rencontre déjà au niveau spatial : l'organisation en place à grande échelle contraint les processus en oeuvre aux échelles fines, lesquels processus, en retour, assurent la stabilité de l'organisation. Mais il y a t-il vraiment lieu de faire de ces interactions entre niveaux d'échelle différents des arguments contre le réductionnisme ?

Quoi qu'il en soit, l'émergence, dans sa première acception, celle des rapports entre comportement  d'un Tout et fonctionnement de ses parties, est resté me semble-t-il au centre de l'exposé.

Emergence et Sciences Cognitives


Le thème de l'émergence, en tant qu'analyse des rapports entre un Tout et de ses Parties, s'introduit en sciences cognitives par le fait que le cerveau est un collectif ; savoir, pour l'être humain, un collectif de 100 milliards de neurones, structurés par un nombre encore plus grand - 10.000 fois plus - de connexions. La question se pose de la nature du lien entre :
  1. d'une part, le comportement et le ressenti de l'être animé, propriétaire de ce collectif neuronal.
  2. d'autre part, les propriétés et comportements individuels des membres de ce collectif. 
Dans le premier cas, par comportement, il s'agit de ce que l'on voit "objectivement", de l'extérieur, des actions de l'être animé et leurs conséquences ; par ressenti, il s'agit, au moins pour l'être humain, de la représentation que cet être se fait de lui même, de ses actes et de leurs suites.

Dans le second cas, il s'agit de ce qui se passe "objectivement" dans le cerveau quand on regarde cette fois à l'intérieur, à l'échelle des neurones et de leur connexions.
L'ambition tenace d'expliquer le premier niveau par le second, les progrès qui semblent être réalisés dans ce sens, les acquis obtenus, tout cela semble aller dans le sens du réductionnisme, dont Jean Pierre Changeux s'est fait le chantre dans les neurosciences. Mais des scientifiques se sont faits les portes-voix de positions plus nuancées, en ré-interprétant certaines de leurs propres expériences. 

Emergence forte ou faible ?


Ainsi, dans la dernière partie de son exposé, Rémy Lestienne évoque-t-il les travaux du neurobiologiste Roger Sperry (prix Nobel de Physiologie ou Médecine en 1981) ; à travers les travaux de ce dernier, Lestienne aborde plusieurs grandes questions dans leurs liens avec l'Emergence, dans la conception forte de cette dernière, savoir l'éventualité que le premier niveau puisse exercer une action autonome sur la dynamique du second niveau : la question de la conscience, celle du libre arbitre, celle de la production d'idées nouvelles et plus généralement de l'activité créatrice. 

Il ne m'est pas possible de discuter directement des thèses développées, lesquelles exigent un sérieux background de lectures, tant dans le domaine des sciences du cerveau que dans celui de la philosophie. Je renvoie donc le lecteur au texte de l'exposé et aux ouvrages de l'auteur, et aussi aux nombreux écrits que l'on trouve sur la toile sur ces sujets. Parmi ces écrits, je citerai en particulier, autour de la notion de libre arbitre, un billet du "blogue du cerveau à tous les niveaux" commentant les expériences de Benjamin Libet, puis celles d'un élève et continuateur de Roger Sperry, Michael Gazzaniga. 

Quoi qu'il en soit, il faut rappeler qu'un parti-pris réductionniste en neurosciences n'exclut pas ce qui est qualifié par Rémy Lestienne d'émergence faible, laquelle rappelons le (voir aussi le billet précédent N° 8), s'appuie sur la distinction entre comprendre et prédire
  • L'approche réductionniste peut avoir l'ambition de comprendre comment le cerveau peut effectuer des opérations très complexes, par exemple produire des idées nouvelles ; autrement dit, de comprendre quelles structures et quels mécanismes neuronaux rendent ces productions possibles. 
  • Il paraît par contre hors de portée - en restant à ce niveau neuronal - de prédire quelles idées nouvelles vont effectivement surgir. Sans doute peut-on, par exemple, analyser rétrospectivement, dans une vie humaine, la progression d'une pensée, et dans l'Histoire, le "mouvement des idées", pour rendre compte de la logique de telle ou telle avancée ; mais de telles analyses se situent sur des plans bien différents, biographiques, historiques ou sociaux. 
En résumé, les tenants de l'émergence faible admettent bien qu'en principe ce sont les neurones, leurs connexions et l'architecture de ces dernières qui sont le lieu et la matrice des potentialités mentionnées ; mais ils soulignent aussitôt qu'en pratique il y a bien nécessité de sciences particulières, comme la psychologie, la sociologie ou l'histoire, opérant avec leurs concepts et méthodes propres, indépendamment de la neurobiologie. 

Autour des processus de perception et du cerveau bayésien.


Rémy Lestienne nous a invités à entrer plus concrètement dans la discussion, à partir de modèles élaborés initialement pour rendre compte des processus de perception et d'interprétation des objets perçus ; ces modèles, dits modèles bayésiens ont depuis quelques années la faveur de nombreux chercheurs.  Le cerveau, impliqué dans ces processus, se comporte comme une machine à calculer des probabilités conditionnelles, utilisant le théorème de Bayes - du nom du mathématicien britannique ayant vécu au XVIII siècle.
 
Comprendre le lien entre ce comportement calculatoire et l'architecture neuronale exige d'abord de cerner plus précisément la nature des calculs en jeu. Pour ce faire, je me suis appuyé sur les cours de Stanislas Dehaene dispensés au collège de France en 2011-2012, auxquels notre conférencier fait référence, notamment sur le  cours N°1 (introduction au formalisme de Bayes) et, surtout, sur le cours N° 3 (interprétation des signaux sensoriels).

Le cerveau, une machine à créer des cohérences. 


Rémy Lestienne rappelle à notre connaissance un principe de fonctionnement du cerveau qui semble bien établi : le cerveau, dans son travail d'interprétation des perceptions, est une machine à créer des cohérences, cohérences entre ses perceptions et l'expérience du monde accumulée dans des étapes antérieures. Cette recherche de cohérence peut parfois aboutir à des erreurs, l'expérience accumulée trop prégnante trompant l'observateur, en lui faisant voir l'objet perçu différemment de que ce qu'il est en réalité ; ainsi en est-il des illusions d'optiques, dont certaines sont rappelées. Mais elle peut aussi aller dans le bon sens, en restructurant les représentations codées en mémoire, pour intégrer efficacement la nouveauté présentée.

Un tel fonctionnement ne doit pas surprendre les chercheurs, habitués qu'ils sont à d'abord essayer, face à un fait nouveau, de le faire entrer dans le cadre des théories existantes, puis en cas d'échec à examiner en quoi ces théories doivent être remaniées ou dépassées. Il ne surprend pas non plus ceux qui ont travaillé, en intelligence artificielle,  sur l'apprentissage automatique.

Analysons donc la réaction du cerveau d'un observateur face à un nouvel objet, en considérant ce cerveau comme constitué d'un système perceptif et d'une mémoire ; ce, dans une approche rudimentaire pour le moment, ne s'intéressant qu'à une seule propriété de l'objet, comme sa taille, sa couleur ou son orientation (ce dernier cas présenté dans le cours N°3 cité précédemment).

Cerveau bayésien :  d'une propriété objective au signal sensoriel.


Soit x la mesure "objective" d'une propriété de l'objet perçu, par exemple une taille mesurée en mètres ou une orientation en degrés. Soit m le signal sensoriel - celui, par exemple, se formant dans la rétine, et transmis par les nerfs optiques - fourni par le système perceptif d'un observateur. Ce signal sensoriel est issu d'une transformation de signaux physiques - des ondes lumineuses dans l'exemple - en provenance de l'objet.

Peu importe ici les processus réels en jeu dans cette transformation, peu importe non plus la nature - physique, chimique -  de ce signal ; la relation entre x et m est probabiliste,  du fait de la présence de sources d'erreurs diverses ("bruit") ; elle n'est par ailleurs pas nécessairement linéaire (par exemple  par les effets de saturation pour les très faibles ou les très grandes valeurs de x). Cette relation s'exprime par une fonction de probabilité conditionnelle P(m | x), probabilité pour le système perceptif de produire le signal m,  lorsque la mesure objective est x.

x mesure objective, m signal sensoriel, y estimation interne de la mesure x

Cerveau bayésien : du signal sensoriel à son interprétation.


A partir du signal  sensoriel, le cerveau doit construire une estimation (nommée y dans le schéma ci-dessus) - de la mesure objective considérée ; en reprenant nos exemples, une estimation de la taille ou de l'orientation de l'objet. Plus largement dit,  il doit construire une interprétation du signal perçu. Ici encore, peu importe la nature de la grandeur y, disons seulement qu'elle doit assurer la pertinence des actions que l'observateur peut décider en conséquence ; par exemple, pour une antilope, fuir si un objet d'une certaine taille (celle d'un lion par exemple) est trop proche !

Pour effectuer cette estimation,  le cerveau de l'observateur dispose, dans la vision bayésienne, de deux types d'informations encodées dans sa mémoire, ou a priori subjectifs : 
  • des a priori sur le monde réel : la gamme des mesures possibles de la propriété perçue et les mesures les plus fréquemment observées. Par exemple, des a priori sur la taille des animaux : l'antilope n'imagine peut être pas une bête de la taille d'un tyrannosaure ! De tels a priori, dans ce cas ci des connaissances approximatives sur les fréquences, sont formalisés par une fonction de probabilité P(y).
  • des a priori sur la relation entre les valeurs possibles de la grandeur y et celles du signal sensoriel m : par exemple, sur la relation entre, d'une part, la taille imaginée de l'objet, d'autre part, la forme et l'intensité du signal sensoriel que l'observateur s'attend à percevoir face à un objet de cette taille. Cette relation, ou fonction de vraisemblance du signal, est formalisée par une fonction de probabilité conditionnelle P(m | y).
Il faut bien comprendre l'utilité de distinguer les deux types de grandeurs y et x
  • y, symbole des grandeurs subjectives, internes au cerveau de l'observateur, les seules à sa disposition.
  • x, symbole des mesures objectives, externes, qui lui sont inaccessibles. 
Aussi bien P(y) ne doit pas être confondue avec la probabilité effective de rencontre des mesures objectives P(x), ni P(m | y) avec P(m | x). Mais rien de nous empêche, par convention, de considérer que les valeurs y et x s'expriment dans les mêmes unités, par exemple pour une taille, en mètres, ou en hauteurs moyennes d'un lion pour l'antilope !

L'interprétation donnée par le cerveau du signal sensoriel est une nouvelle fonction de probabilité P(y | m), probabilité a posteriori des différentes valeurs de y après réception du signal. Cette probabilité est calculée par le cerveau, toujours dans l'hypothèse d'un fonctionnement bayésien, par la formule de Bayes, soit :

  Validité des a priori,  l'effet de surprise.


Le calcul de la probabilité a postériori étant achevé, le cerveau peut dès lors retenir l'interprétation optimale, c'est-à-dire la valeur de la grandeur y qui maximise P(y | m), le signal m étant connu. Il dispose même d'une évaluation du risque qu'il prend en retenant cette valeur plutôt qu'une autre, par la connaissance de l'écart-type de la distribution. Si par exemple la taille retenue est celle d'un chat, mais que celle d'un lion est encore assez probable, l'antilope devra rester sur ces gardes !

Bien sûr, comme déjà dit, il faut que la valeur retenue soit relativement correcte, qu'elle n'amène pas le propriétaire du cerveau à se tromper lourdement dans ses actions et compromettre ainsi sa survie. Une des conditions nécessaires pour qu'il en soit ainsi est que les connaissances a priori, autrement dit les représentations du monde conservées en mémoire, soient elles-mêmes correctes ; savoir, dans notre cas, que la distribution P(y) des grandeurs subjectives ne soit pas sensiblement biaisée, comparée à la distribution P(x) des mesures objectives.

Cette comparaison, le cerveau ne peut la faire directement puisque les mesures objectives lui sont inaccessibles ; mais du moins dispose-t-il d'une possibilité de contrôle. A partir de l'interprétation y retenue et de la fonction de vraisemblance des signaux  P(m | y), il peut en effet calculer le signal auquel il aurait du s'attendre, ce qu'il aurait du percevoir si son interprétation était totalement correcte. La comparaison du vrai signal perçu m et de ce signal recomposé, désignons le par m, est instructive : une grande différence entre les deux est la marque d'une erreur, et entraine chez l'intéressé un effet de surprise. Imaginons l'interrogation de l'antilope en présence d'un tyrannosaure ; elle a conclu, à partir de certains indices visuels, être en présence d'un lézard, mais elle s'aperçoit bien, en recomposant la taille, que quelque chose ne colle pas ! Il faudra bien qu'elle apprenne, pour sa propre survie, qu'un lézard peut avoir la taille d'un tyrannosaure. 

 Construction d' a priori corrects : apprentissage


L'effet de surprise, tous ceux qui ont été à l'école le connaissent bien, lorsque le professeur signale que le résultat qu'on croyait juste est partiellement ou totalement faux.  Dans le cas qui nous occupe, cet effet de surprise survient sans professeur, sans intervention externe : c'est le cerveau lui même qui décèle une incohérence. Et c'est sa chance, s'il peut utiliser cette différence entre signal réellement perçu et signal recomposé, pour rectifier les a priori exploités dans ses calculs ; pour ce faire,  à l'aide d'un processus itératif, en répétant jusqu'à l'obtention d'une cohérence les étapes suivantes :
  • proposition de nouveaux a  priori légèrement modifiés
  • calcul d'une nouvelle interprétation y du signal perçu m
  • calcul d'un nouveau signal recomposé m
  • évaluation de la cohérence entre le signal perçu et le nouveau signal recomposé.
En appliquant cette procédure sur un échantillon de valeurs m différentes, rencontrées dans différentes circonstances, le cerveau peut ajuster progressivement la distribution des valeurs recomposées  P(m') à la distribution effective P(m). A défaut de l'ajustement de P(x) à P(y), par nature irréalisable, l'ajustement de P(m) à P(m') sur toute l'étendue de ces distributions est le critère d'un bon apprentissage.
Mais comment le cerveau est-il armé pour effectuer tous ces calculs ?.

Des modèles bayésiens aux réseaux de neurones


La structure de l'exemple présenté est rudimentaire, mais peut se complexifier aisément : par exemple, au signal sensoriel m peut se substituer une multitude de signaux sensoriels - visuels, auditifs, tactiles, etc - qui vont participer à l'interprétation de l'objet perçu. L'interprétation elle même - la grandeur y - peut être, non pas un simple nombre comme elle l'était implicitement dans les exemples évoqués, mais un élément d'un vaste ensemble, un vecteur y=[y1,...yN] de très grande dimension N : alignant donc de multiples composantes et représentant une part des connaissances accumulées sur l'objet perçu.

La poursuite de la discussion exige de comprendre comment ces modèles bayésiens sont "implémentés", autrement dit mis en oeuvre, par des réseaux neuronaux. Comprendre par exemple comment des groupes de neurones peuvent coder des distributions de probabilité a priori et a postériori ; comment accomplissent-ils les calculs ; quels sont les mécanismes d'identification d'une probabilité maximale ; comment s'effectue la comparaison entre signaux perçus et recomposés ; comment se réalisent les apprentissages.

Dans son exposé, Rémy Lestienne, sur ce thème, a fait référence à plusieurs travaux en neurosciences, notamment aux travaux de Stanislas Dehaene, mais aussi à ceux de Karl J. Friston et de Geoffrey HintonIl  souligne combien ces travaux montrent la capacité des réseaux de neurones à effectuer de tels calculs, accompagnés des ajustements liés aux apprentissages, dès lors que certaines conditions sont remplies, savoir : 
  • conditions sur le fonctionnement individuel de chaque neurone - forme des fonctions contrôlant les probabilités d'excitation. 
  • conditions sur l'architecture des connexions - structurations en couches successives, existence de boucles, etc.
Un moyen d'approcher le lien entre modèles bayésiens et réseaux neuronaux - en particulier pour des non-biologistes - est de se tourner vers certaines formalisations des réseaux utilisées en Intelligence Artificielle - pour la reconnaissance des formes notamment. Ces formalisations procèdent en quelque sorte d'un retour vers la physique statistique. Je vais ici en rappeler brièvement le principe, en m'appuyant sur deux articles de Geoffrey Hinton, avec comme arrière-plan le modèle bayésien de perception précédemment présenté.

Hinton et les machines de Boltzman



Dans mon billet précédent (billet N° 8), j'ai abordé les modèles d'Ising ; j'ai discuté de la dynamique
de ces réseaux, organisant sur une grille spatiale régulière, des éléments individuels identiques (noeuds ou "sites") de comportement très simple. Les machines de Boltzman dont parle Geoffrey Hinton déjà cité, en sont une extension. Dans la version "standard" de ces machines, comme dans Ising, l'état d'un site peut prendre seulement deux valeurs, 0 (état inactif) et +1(état actif) ; comme dans Ising également, les connexions sont binaires et symétriques : ce sont des liens entre deux sites, affectés d'une intensité (un "poids") et fonctionnant de la même façon dans les deux sens. Mais, contrairement à Ising, le graphe que ces connexions forment est quelconque : le nombre de connexions et leurs intensités varient d'un site à l'autre. 

Le comportement d'un site est toujours défini par une probabilité de changer d'état, en fonction des états des sites auxquels il est connecté, des poids de ces connexions, d'un paramètre spécifique à chaque site - appelé dans la littérature le biais - et - éventuellement - d'un paramètre global de température ; 
Une Machine de Boltzman "restreinte" (pas de connexions entre sites cachés)

 

 Machine de Boltzman et représentation des probabilités


Pour correspondre au cas du processus de perception pris précédemment comme exemple, la machine doit posséder une certaine structure. Cette structure distingue deux sortes de sites : les sites visibles, et les sites cachés : 
  • Les sites visibles représentent le système perceptif ; le vecteur (l'ensemble) de leurs états, à un instant donné, correspond au signal sensoriel. Notons le ici m, en conformité avec la notation utilisée précédemment.
  • Les sites cachés représentent la mémoire ; le vecteur de leurs états, à un instant donné, correspond à l'interprétation du signal sensoriel. Notons le ici  y
Une configuration de la machine, à un instant donné, est la donnée complète des états pris par chaque site, qu'il soit visible ou caché (c'est donc en l'occurrence un vecteur dont les composantes prennent les valeurs 0 ou 1 ; dans le cas de la figure, ce vecteur comporte treize composantes). Notons m,y cette configuration, pour bien faire apparaître la décomposition visible/caché.
 
Lorsqu'on initialise les états de chaque site d'une manière quelconque, mais qu'on laisse ensuite ces sites évoluer d'eux mêmes, de part les probabilités qui gouvernent leurs transitions, la machine atteint (sous certaines conditions) un équilibre statistique ; équilibre au sein duquel les fréquences d'apparition des différentes configurations restent stables. Par le biais de ces équilibres, la machine se trouve ainsi associée à une fonction P(m,y), assignant une probabilité à chacune des configurations possibles m,y. Cette distribution de probabilité est dite de Boltzman, dénomination que l'on retrouve dans d'autres contextes, en référence au fondateur de la physique statistique. 
 
Le coeur de l'adéquation d'une telle machine aux calculs bayésiens est justement l'existence de cette  distribution et le couplage qu'elle réalise entre la partie signal sensoriel m et la partie interprétation y de chaque configuration. La donnée des probabilités conjointes P(m,y) entraine celle des probabilités marginales P(y) et P(m), celle des probabilités conditionnelles P(y | m) et P(m | y). Donc toutes les probabilités impliquées dans le modèle de perception bayésien discuté plus avant.

Machine de Boltzman et apprentissage


La distribution de probabilité P(m,y), ainsi que les probabilités marginales et conditionnelles associées, sont complétement déterminées par les paramètres de la machine de Boltzman ; lesquels paramètres sont, rappelons le, les "poids" des connexions et les "biais" propres à chaque site. Lorsqu'on initialise  ces poids et ces biais au hasard, il n'y a bien sûr aucune raison pour que la distribution marginale P(m) résultante soit identique à une distribution P*(m) donnée ; savoir, une distribution fixée à l'avance et imposée comme but d'apprentissage. Tout l'art de cet apprentissage est de faire évoluer les poids et les biais, de façon à rapprocher progressivement P(m) de P*(m) et, dans l'idéal, d'atteindre une parfaite superposition. 

En pratique, les méthodes procèdent de la démarche suivante : 
  1. tirage au sort, dans la distribution P*(m), d'un échantillon de différentes valeurs m. Cet échantillon (échantillon sans biais) constitue la base d'apprentissage, le training set
  2. initialisation des sites visibles de la machine, en utilisant l'une après l'autre les différentes valeurs m du training set, et en laissant, sur chacune d'elles, la machine évoluer d'elle même jusqu'à l'équilibre, tout en maintenant les sites visibles figés sur la valeur choisie.
  3. initialisation des sites visibles de la machine, toujours en utilisant l'une après l'autre les différentes valeurs m, et en laissant, sur chacune d'elles, la machine marcher d'elle même jusqu'à l'équilibre, mais cette fois en laissant les sites visibles libres d'évoluer à leur guise. Ces derniers se stabilisent alors sur une valeur moyenne de signal m'. On obtient ainsi, au bout du compte, un échantillon reconstruit (ou recomposé).
L'objectif devient alors de pousser, par une modification progressive des paramètres, l'échantillon reconstruit vers le training set ; autrement dit, de rapprocher les valeurs reconstruites des valeurs correspondantes de la base d'apprentissage. 
 
Pour calculer, à chaque itération, les variations pertinentes des poids de connexions et des biais individuels, les algorithmes comparent les signaux du training set et les signaux reconstruits ; au delà, ils comparent - pour chaque valeur m - les configurations d'équilibre respectivement obtenues à l'issue des étapes 2 et 3 précédentes. Dans ces calculs, une propriété des machines de Boltzman s'avère essentielle ; savoir,  la relation entre 1) la variation du poids d'une connexion, toutes choses restant égales par ailleurs, 2) la variation subséquente de la probabilité attribuée par la machine à un signal m de la base d'apprentissage. Il se trouve que cette relation, "surprisingly simple", ne mobilise explicitement que des données locales de la connexion considérée : l'espérance mathématique des états respectifs des deux sites connectés et les corrélations entre ces états.

Dans ce cadre algorithmique général, nombre de travaux proposent en outre une simplification notable, accélérant les calculs. Cette dernière consiste à se restreindre à une catégorie spécifique de machines, avec une connectique allégée : dans ces machines, comme celle de la figure ci-avant, seules sont présentes les connexions entre sites visibles et sites cachés.  Pour plus de précisions, le lecteur peut consulter, par exemple, le document de Geoffrey Hinton intitulé "a Practical Guide to Training Restricted Boltzman Machines", qui constitue une entrée détaillée sur ces sujets.

Certes, l'existence de ces algorithmes, leur exploitation informatique, leurs performances en reconnaissance des formes, tous ces éléments ne disent rien sur la manière dont ces apprentissages  peuvent être réalisés dans des structures biologiques. Mais du moins en démontrent-ils la faisabilité théorique, et les principes qu'ils peuvent utiliser. Comme dans le cas du vivant, la possibilité de simuler ces processus cognitifs est un élément à prendre ne compte dans la réflexion sur l'Emergence.

En guise de conclusion, un sentiment personnel


L'exposé de Rémy Lestienne, malgré sa force de conviction, m'a laissé dans un certain scepticisme vis-à-vis de la critique du réductionnisme. Tous les exemples développés dans ce résumé, à partir de l'exposé, me font douter de la fécondité du concept d'émergence forte ;  je continue à penser qu'une part majeure de la science consiste bien à tenter d'expliquer les choses "down up", du bas vers le haut, de l'individuel vers le collectif, des Parties au Tout. Il est vrai, à contrario, que je n'ai pas traité, comme sans doute il le faudrait,  certains des travaux cités par Lestienne, et qui semblent appuyer la thèse contraire : savoir, notamment en Physique, les travaux de Robert B. Laughlin et, en neuro-biologie, ceux de Roger Sperry et Michael Gazzaniga.

Mais mon propos dans ce résumé, comme généralement dans mon blogue, n'est pas de promouvoir une position sur telle ou telle question ; il est de profiter de l'occasion offerte par l'écoute des conférences et séminaires auxquels j'ai la chance d'assister, pour mieux comprendre moi-même, et faire comprendre autour de moi,  autant que je peux le faire, les thèmes abordés

Aucun commentaire:

Enregistrer un commentaire