La reconnaissance sonore

Lapalisse n’aurait point fait mieux en déclarant de prime abord que pour reconnaître il faut préalablement connaître. En matière sonore comme ailleurs, identifier un événement nécessite avoir entendu et mémorisé cet événement ou un élément appartenant à la même catégorie d’événements. Reconnaître les qualités sensorielles d’une source, en faire une représentation abstraite et mentale, la stocker, l’identifier, en déduire ses différentes significations ou associations avec d’autres objets environnants, est, à n’en pas douter le fruit d’un processus complexe s’étendant sur plusieurs niveaux de traitement. Une reconnaissance doit nécessairement réaliser une opération de comparaison entre une information d’ordre sensoriel et un lexique d’images sonores stockées en mémoire à long terme. Il s’agit d’apprécier le résultat d’opérations d’analyse, d’ajustement et d’association . Historiquement parlant et selon le point de vue d’une  » psychologie écologique « , la perception auditive aurait une sensibilité particulière aux aspects de l’environnement qui revêtent une importance biologique pour l’auditeur, qui ont joué un rôle comportemental déterminant dans une optique évolutionniste. Les stimuli sonores d’origine naturelle ont sans doute modelé nos outils perceptifs dans toutes ses dimensions et performances. C’est dans l’adéquation de l’intellect humain au traitement de l’univers sonore environnemental possédant ses caractéristiques de timbre, de fréquence, de durée, d’intensité mais aussi les combinaisons de ces sons en séquences plus ou moins longues et complexes qu’il faut aujourd’hui rechercher les véritables universaux perceptifs afin de déterminer au mieux la part du biologique dans le processus de perception/mémorisation. La musique, considérée en tant que phénomène sonore complexe, savant et structuré, ne saurait néanmoins se soustraire à ce formatage premier, dans lequel les possibilités mnésiques, entre autres, jouent un rôle primordial. Si elle le fait, c’est en toute connaissance de cause, ou, en l’occurrence, en toute connaissance d’effet.

La mémoire auditive

Une étude de la mémoire, et particulièrement celle concernant l’audition , est dominée aujourd’hui par deux approches théoriques sensiblement différentes. La première nous paraît à bien des égards, la plus naturelle, la plus facile à concevoir. Il s’agit de la vision du stockage, métaphore de la bibliothèque, rétention d’expériences, registres mnémotechniques, réceptacles de la connaissance. Sans pouvoir nier un tel type de mémorisation (on trouve en effet un équivalent de la modalités auditive épisodique dans le domaine visuel avec l’existence d’une mémoire dite échoïque, celle-là même qui permet la rétention d’images) un tel processus pose aux chercheurs plus de problèmes qu’il n’en résout. Outre l’extrême variabilité des propriétés de stockage déjà envisagée dans le domaine visuel , les partisans d’une mémoire de ce type dans le domaine auditif se voient obligés de postuler l’existence d’une infinie multiplicité de réservoirs mnémotechniques sensoriels. Surgissent alors les problèmes de la localisation physique de ses réservoirs, au sein du cortex lui-même, ceux liés à la conservation de l’information elle-même, ceux, enfin, concernant les processus de rappel, de reconstitution du souvenir par le biais d’un réseau neural encore mystérieux reliant entre-eux ces divers réceptacles. À l’étude, d’autres questions peuvent encore se poser telle celle de l’intégrité de l’information dans un contexte biologique en perpétuel renouvellement, celle d’une possible hiérarchie des souvenirs, ou encore, la simple capacité quantitative de tels réservoirs.
Une deuxième hypothèse dite procéduraliste connaît aujourd’hui la faveur de nombre de chercheurs. D’après celle-ci, la mémoire n’est pas, en tant que telle, une faculté ou une capacité mentale. Ainsi, aucune aire du système nerveux ne serait affectée à la mémoire proprement dite. Le phénomène de rétention est alors envisagé comme une persistance, un produit secondaire de d’une activité mentale initiale, le souvenir, la trace d’un traitement psychique antérieure. Cette hypothèse illustre on ne peut mieux l’intuition selon laquelle il est très difficile de trancher entre les processus psychiques permettant la réception/perception du stimulus sonore et ceux engendrant une trace mnésique de ce même stimulus. La mémoire est une véritable condition au traitement du temporel; elle est la réification de l’immatériel. Sans mémoire, aucun phénomène temporel n’a d’existence consciente, et le présent, temps virtuel, disparaît entraînant avec lui la notion de mouvement, donc celle d’espace et de vitesse. La perception serait soumise à une suite de clichés statiques, à l’image d’une pellicule de cinéma dont chaque vue fixe aurait été privé de situation chronologique, sans antériorité ni devenir.
Cette hypothèse rejette donc l’éventualité d’une rétention dans des réservoirs mnémotechniques, sorte de réceptacles, pour voir la mémoire comme une conséquence naturelle du traitement de l’information. De ce point de vue, le siège de l’expérience initiale d’une activité cérébrale se confond avec celui de sa mémorisation propre. Le procéduralisme implique donc l’existence d’une infinités de type de mémorisation dans la mesure où le système nerveux effectue une infinité de démarches perceptives, de raisonnements et de traitements de l’information. Ainsi, un traitement auditif conduit-il à une mémorisation auditive de manière systématique et automatique, les aires de mémorisation se confondant avec les aires de traitement, autrement dit, autant de lieux de mémorisation différents que de lieux d’activité cérébrale.
Quoi qu’il en soit, il est aujourd’hui établi qu’une juste distinction peut-être faite entre mémoire auditive à court et à long terme. La rétention à court terme n’aurait pas en soi de fonctions très importantes mais constituerait une étape décisive dans le processus global de réception et de stockage de matériaux structurés et signifiants. Cette étape représenterait une intégration primaire. La mémoire à court terme semble être spécifiquement conçu pour traiter la parole, ainsi que les autres éléments qui doivent être intégrés dans la dimension temporelle. Il est naturel d’imaginer un système de stockage capable de retenir le début d’une unité signifiante, une phrase, pour pouvoir la saisir dans sa globalité une fois celle-ci achevée. Cette opération est essentielle pour saisir toutes les relations internes et reconstituer le sens d’un énoncé. Nous pouvons ainsi lancer une passerelle entre l’énoncé verbal , son formatage et son appropriation, et la phrase musicale. Nombre d’indices convergent pour montrer que la phrase verbale opère comme unité de perception en musique. La mémoire à court terme apparaît alors comme une fenêtre temporelle ouverte sur un « présent apparent », c’est-à-dire, une tranche d’événements qui en un certain sens semblent présents à l’observateur à un moment donné. En effet, bien que la musique se déroule dans le temps, bon nombre de musiciens la tienne pour intemporelle. Une fois intériorisée, la musique est, en un sens, intemporelle. Elle a certes un ordre dans le temps, mais le début et la fin peuvent également être mentalement « présents » simultanément. Le temps musical est essentiellement une notion-produit de la mémoire sémantique. Quoi qu’il en soit, il faut reconnaître l’importance de la pratique et de la motivation dans le processus de mémorisation sans oublier qu’en l’absence d’une structuration quelconque du sonore, la mémoire « pure », si tant est qu’elle puisse exister en tant que telle, apparaît très limitée. Nous reviendrons ultérieurement sur cette notion de  » fenêtre temporelle « .
Dans les nombreuses expériences réalisées à ce jour et concernant la rétention à court terme, celles basées sur la mémorisation d’une succession d’items ont mis, entre autre, en évidence l’existence d’un effet de suffixe qui conduit à une meilleure rétention du dernier item, celle-ci entraînant à son tour une meilleure rétention de l’item pénultième, son prédécesseur immédiat. Ainsi, chaque item de la série joue le rôle de suffixe pour l’item précédent. Cet effet conduit, pour une succession d’items, au dessin d’une courbe de mémorisation fortement descendante depuis le premier item – qui semble conserver un poids notable dû, sans doute, à sa position structurelle dans la séquence – jusqu’à l’antépénultième. Sur les deux derniers items, la courbe remonte sensiblement. Si ce type de résultat, pour être pertinent, n’éclaire encore que faiblement le processus de mémorisation concernant une surface musicale élaborée, la constatation suivante nous permet de croire à la validité d’une telle démarche. En effet, le rappel correct des derniers items d’une liste est renforcé par une information sur les temps relatifs (ou absolus) de la présentation de ces items. Il existerait ainsi une sorte de tempo subjectif , intuitif, mesure sensorielle et innée du temps qui replacerait chaque événement sonore dans un ordre temporel précis et permettrait encore de mesurer les durée relatives. Une opération d’association se bâtirait entre les événements sonores eux-même et cette perception du temps. Un tel processus d’association, (comme tout autre type d’associations sur lesquelles se basent bon nombre de techniques mnémotechniques), aide à la rétention.

Le masquage.

Les expériences utilisant un masque, c’est-à-dire un son succédant à un premier son cible, mettent en évidence l’existence d’un temps de traitement durant lequel le cerveau accomplit la procédure de mémorisation. Dans la majorité des cas, le masque réduit l’aptitude a identifier correctement, à reconnaître, le son entendu précédemment, en particulier lorsque l’intervalle de temps entre le masque et la cible est de l’ordre de 250 millisecondes. Si le traitement du son est terminé avant la présentation du masque, son identification est correct. En revanche, si ce traitement n’est pas terminé, on observe un phénomène de fusion entre son et masque. Cette expérience permet d’évaluer la durée des opérations de stockage de la mémoire auditive courte à environ 250 ms tandis que la durée du traitement pour un phénomène auditif long varierait entre 2 et 10 s, voire plus. Cependant, dans ce type d’expérience, on ne peut totalement écarter l’éventualité de stratégies de mémorisation telle qu’une verbalisation (« grave », « aigu ») – ce qui nous ramènerait à un cas d’association évoqué plus haut – comme on ne peut faire l’amalgame entre une simple détection du son cible et sa complète identification. Ici encore, nous pouvons faire un parallèle avec les nécessités vitales qu’impose un environnement naturel et ses dangers potentiels. La  » psychologie écologique  » évoquée plus haut nous conduit, lors de la réception d’un bref stimulus sonore, à une analyse rapide qui, seule, nous permettra une réaction salutaire. Ce processus réflexe, action-réaction, est bien sûr observable dans la totalité du règne animal.
D’autres expériences impliquant divers types d’interférences dans une succession de sons à mémoriser permettent de croire que l’on peut raisonnablement dissocier les aspects linguistiques (sémiotiques) et purement sonores (acoustiques) en matière de traitement. Ceci plaide, par ailleurs, en faveur de la thèse procéduraliste qui, en dissociant les aires de traitement, dissocie également les aires de mémorisation.
Quoi qu’il en soit, et cela même pour des tâches aussi insignifiantes sur le plan musical que la comparaison entre des hauteurs de sons purs, il apparaît que des facteurs individuels sont d’une grande importance. Ainsi, une base de connaissances liée à la hauteur des sons, en général, résultat d’une longue expérience de la musique tonale (mais une telle remarque peut évidemment s’appliquer à n’importe quel autre système musical) paraît déterminante dans ce type d’expérience. La constitution d’une telle base de connaissances est une condition sine qua non de toute forme d’apprentissage, le préalable à l’enregistrement de nouvelles expériences. Toute perception des sons est donc liée à un contexte systémique acquis, fourni par la connaissance implicite des relations conventionnelles à l’intérieur d’une culture musicale donnée.

La mémoire mélodique

Un grand nombre d’expériences ont eu pour sujet la reconnaissance de mélodies. Toutes sortes d’interférences ont été testées comme dans les mélodies intercalées de Dowling (1973) ou les mélodies octaviées de Deutsch (1972). Dans ces dernières, les notes d’une mélodie très connue sont octaviées de manière hétérogène de telle sorte à produire un brouillage. Il ressort que ces sauts d’octave entravent moins fortement la reconnaissance de cette mélodie lorsqu’ils conservent la séquence des mouvements ascendants et descendants de la mélodie originale. Ainsi donc, pour les psychologues, la notion de contours fournit des patterns mélodiques à partir du mouvement ascendant ou descendant de l’intervalle sans qu’il soit pour autant essentiel de tenir compte de la valeur exacte de ces intervalles. À une certaine échelle d’observation, l’auditeur ne semble donc percevoir que les contours de la ligne mélodique, simple esquisse qu’une éducation musicale plus poussée ou encore la seule répétition de l’item sonore à considérer peut préciser et parfaire. Le rôle de ce contours, par ailleurs, semble être prépondérant pour de courtes séquences de rétention. Pour des séquences plus longues, son influence est semblable à celle des intervalles de hauteurs constitutifs de la mélodies. Enfin, plus une mélodie compte d’inflexions, de changements de sens dans la succession de ses intervalles constitutifs, plus elle est difficile à mémoriser.
Une éventuelle association de la mélodie présentée avec un simple titre, par exemple, facilite grandement la reconnaissance si bien que l’on peut avancer un mécanisme d’amorçage qui abaisse le seuil de perception lorsqu’un item a déjà été traité antérieurement. Ce mécanisme d’  » amorçage  » et le concept d’une  » configuration  » des outils perceptifs lors des premières secondes de la perception d’une surface musicale seront développés plus loin.
Cette accélération de la reconnaissance porte à croire à une certaine globalisation, pour ne pas dire symbolisation des expériences auditives sous la forme d’images auditives immédiatement disponibles. Ainsi, l’identification d’une mélodie familière serait liée à la production d’une représentation interne qui diffère de la mémorisation d’une séquence ordonnée d’intervalle dans le cas d’une mélodies nouvelle. Ceci dit, les expériences de rappel sont soumises à un grand nombre de filtres cognitifs comme les contraintes liées à la reproduction (chantées ou jouer sur un clavier), le niveau de maîtrise de la notation musicale ou les influences liées aux structures cognitives conventionnelles propre à un style de musique plus familiers. Ces raisons expliquent qu’une telle méthodologie est relativement peu courante dans la recherche sur la mémoire mélodique. Dans ces expériences, toutefois, il s’est avéré que les sujets musiciens ne témoignaient pas de performances sensiblement supérieures aux sujets non musiciens. Seule une sensibilité à la dimension harmonique d’une mélodie pouvait influencer et favoriser les sujets musicalement éduqués. La comparaison de ces derniers avec d’autres, l’étant moins ou pas du tout, est susceptible d’être faussée par une compréhension radicalement différente des consignes expérimentales. Il est nécessaire d’apporter une très grande attention sur ce dernier point.

Les représentations mnésiques

Si les études qui ont été menées sur les processus de la reconnaissance et de l’identification auditives non verbale prouvent à l’évidence qu’il reste énormément de zones d’ombre dans leur compréhension, il en est sans doute de même en ce qui concerne la représentation mnésique. De très nombreuses expériences restent à faire en matière d’expérimentation comme en modélisation pour simplement amener notre niveau de connaissances à celui d’ores et déjà atteint dans la recherche sur la reconnaissance des formes visuelles. En ce qui concerne le problème de la représentation en mémoire, le processus d’ajustement dans la reconnaissance auditive non verbale est un des domaines les plus ouverts.
Plusieurs hypothèses dans ce domaine se côtoient. Les comparaisons entre le signal sonore et les représentations sensorielles en mémoire semblent s’effectuer à travers un filtrage catégoriel qui s’appuierait sur des qualités acoustiques propres au son. Ces catégories divisent l’espace de représentation en régions. Un stimulus est classé dans une catégorie donnée selon la région dans laquelle se trouve sa représentation auditive. Une catégorie est définie par le sujet d’après la façon dont les stimuli se groupent dans l’espace, autrement dit, l’auditeur essaye d’optimiser la position des frontières entre les catégories de telle sorte que des groupes de représentation de stimuli se situent entre ses limites. L’esprit peut encore pondérer les différentes dimensions du sonore afin de favoriser le plus possible une bonne catégorisation des stimuli. Ainsi, des gabarits d’intensité, de timbre, spectraux, etc. constitueraient des critères de choix pour le classement, et les frontières ainsi établies, loin d’être impératives et rectilignes, peuvent encore connaître de larges zones de recouvrement. L’ajustement fonctionnerait par activation de traces mnésiques. Ainsi des nœuds de gabarits spectraux activés dans un ordre donné représentent des mots particuliers du lexique. On peut imaginer une onde d’activation qui relierait ces nœuds de représentation sensoriels à d’autres configurations de nœuds stockées par catégories en mémoire. Le nœud ou la suite de nœuds la plus fortement activée entraînerait la reconnaissance de cette catégorie. Dans cette optique, un certain degré d’excitation entraînerait la sélection d’une catégorie et inhiberait de ce fait les autres candidats potentiels à la reconnaissance. Lorsqu’une information sensorielle est dégradée, cela provoque plusieurs entrées possibles au lexique, une reconnaissance de ce fait ambiguë, et la possibilité d’erreur. Si plusieurs éléments d’une même catégorie ont une structure comparable et de nombreux traits communs, ils auront un niveau d’activation sensiblement identique, et une probabilité d’erreur importante.
Pour d’autres chercheurs, l’élaboration d’une modélisation du  » traitement optimal  » passe par la considération d’un processus à caractère probabiliste. Une démarche statistique conduirait en effet à la prise de décision dans le classement catégoriel des informations sensorielles. C’est alors le degré de chevauchement dans la distribution de stimuli voisins au sein de l’espace de mémorisation qui donne la mesure de leur similitude et donc la probabilité de confusion entre eux. L’analyse s’opère alors sur la base de comparaisons aux frontières des catégories et en fonction de celles-ci. Les erreurs d’identification peuvent résulter d’une imprécision dans la représentation sensorielle due à une estimation médiocre du positionnement des frontières. Pour Ashby et Perrin (1988) comme pour Braida et Durlach, les frontières catégorielles peuvent se représenter par des points d’ancrage sur lesquels la reconnaissance connaît des valeurs optimales, et à partir desquels la mesure d’une distance « bruitée » permettra d’apprécier correctement un stimulus dégradé, de plus en plus ambigu et source d’erreurs. Il faut ajouter que l’espace sensoriel de mémorisation se conçoit comme multidimensionnel : les paramètres du stimulus sonore constituent autant de possibilités de frontières catégorielles et entraînent certainement une quasi-infinité dans les combinatoires d’associations.
À la lecture des comptes-rendus d’expérience, on peut parfois s’étonner de retrouver derrière des expressions recherchées et savantes, les résultats qu’une certaine « intuitions éclairée » eût pu nous conduire à formuler pareillement. Le chercheur ne peut néanmoins se passer d’une démarche scientifique basée sur l’expérimentation et l’analyse de ses résultats. La perception catégorielle et le choix des critères discriminants parmi les dimensions sonores, le processus d’ajustement, l’aspect multidimensionnel de l’espace de mémorisation, les effets de masque, les associations d’image, l’importance sémantique dans le stimulus sonore verbal, les difficultés d’ajustement liées à la dégradation d’un signal, ou encore le rôle primordial joué par le contexte dans lequel un stimulus sonore se voit traité sont néanmoins des remarques dont un esprit néophyte s’accommode aisément. Dans un domaine où les conclusions sont pour une large part spéculatives par manque d’expérimentation, on ne peut dénier à cette « intuitions éclairée » une valeur de guide expérimenté dans le dédale des hypothèses.