La perception de la musique, sous son aspect mélodique, a de grandes analogies avec la langue parlée. Nous verrons plus loin qu’en ce qui concerne la mémorisation, cette similitude se constate au niveau des aptitudes en terme de segmentation. La durée du  » présent apparent  » est sans doute comparable dans la communication verbale et pour une surface musicale, ce qui permet même de supposer une forme de primauté de la première sur la seconde. En effet, pour pouvoir prétendre à un maximum d’intelligibilité, un énoncé verbal se doit d’être composé d’unités syntaxiques bien structurées, organisées en phrases suffisamment brèves pour ne pas franchir les limites d’une mémorisation à court terme. La fenêtre temporelle, contrainte première au processus mnésique est, de plus, variable dans sa largeur selon la densité du contenu sémantique. Cette dimension sémantique propre à la verbalisation constitue une caractéristique absente, à l’évidence, de toute manifestation purement sonore et musicale. Il n’en reste pas moins que le principe même d’une identité dans le processus perceptif verbal et musical se défend aisément, qu’il soit soumis, dans un cas, à un facteur de densité sémantique ou, dans l’autre, à une densité simplement syntaxique ou événementielle. Lorsqu’un énoncé verbal est perçu, l’auditeur ne reconnaît pas une succession de sons vides de sens, comme le ferait une machine, mais le sens lui-même, comme libéré de son incarnation sonore. Il en est, toutes proportions gardées, de même dans la perception mélodique . Une succession de hauteurs n’est pas perçue en terme d’intervalles ni de fréquences indépendantes mais réalise bien une  » idée musicale  » immédiatement assimilable. Les sons musicaux sont naturellement interprétés au travers de schèmes sensoriels acquis au long d’années d’expérience, à l’intérieur d’un cadre culturel qui modèle ces schèmes de manière bien déterminée. Ces cadres cognitifs implicites organisent notre grille d’analyse en créant des classes de hauteurs ou en établissant des modèles de tension – détente.
La notion de classe de hauteur induit la hiérarchisation des différents degrés de cette classe. Cette hiérarchisation, à son tour, accorde des propriétés de stabilité relative à chacun de ces degrés. Nous avons là le modèle de la gamme diatonique occidentale et des propriétés psychologiques du schème tonal. Outre la pondération qu’un tel cadre accorde à chacun des degrés d’une telle échelle, il faut encore compter avec l’aspect dynamique du phénomène de l’attraction tonale, second moteur du couple tension-détente dans l’univers diatonique. Ainsi, les hauteurs constitutives d’une mélodie sont-elles perçues dans un espace de relations contextuelles, les unes par rapport aux autres, ainsi que chacune dans le cadre plus large d’une tonalité.
Dans le mécanisme de la perception mélodique, il apparaît, au vu des expériences menées, qu’il faut tenir compte des différentes échelles d’observation. La notion de courbe mélodique, par exemple, à l’évidence un peu moins spécifique que la structure exacte des intervalles, est un des traits les plus immédiatement perçus auquel les auditeurs s’attachent de prime abord, au point de confondre les transpositions exactes d’une mélodie avec les simples imitations de sa courbe. À une échelle plus petite, donc plus précise – mais qui concerne de ce fait les sujets plutôt musicalement éduqués – la structure intervallique de la mélodie est perçue avec une grande précision, et les transpositions exactes sont distinguées des simples imitations de la courbe.
La courbe est ainsi un trait important de la perception auditive chez l’enfant. Graduellement, à travers l’acculturation, celui-ci développe les schèmes tonals de sa culture. Le bébé remarque les changements de hauteur modifiant une courbe mélodique mais ignore les modifications qui n’affectent pas directement cette courbe. Lorsqu’il chante, l’enfant n’accorde pas de précision dans les hauteurs et celles-ci fluctuent en l’absence de centres tonals stables. Seuls sont contrôlés les mouvements ascendants et descendants en dehors de toute notion de hauteur absolue. Avec l’âge, le sentiment de centre tonal se développe. Les fluctuations se font plus réduites. Les intervalles mélodiques se rapprochent des modèles des adultes. On peut accorder au chant infantile une valeur de témoin dans l’évolution du  » formatage culturel  » des capacités perceptives. Durant sa phase d’apprentissage, le cerveau construit ses modèles perceptifs en constatant les invariants de l’environnement musical pour ensuite traiter les structures conformes de manière particulièrement efficace. Nous sommes là dans le cadre d’une vision globalisante de la perception qui, seule, permet de telles performances en termes de rapidité.
Lorsque les expériences sont menées avec des mélodies inconnues des auditeurs, on observe que la différenciation entre transposition exacte et simple imitation de la courbe mélodique est beaucoup plus problématique. Par ailleurs, si nous sortons du cadre diatonique, une mélodie ne semble alors perçu que par sa seule courbe. Ces dernières constatations concernant la perception globalisante et les difficultés rencontrées en dehors d’un schème culturel acquis suggèrent l’existence d’un processus perceptif à étapes, dont la finalité serait l’optimisation du binôme Reconnaissance/Rapidité. Nous pourrions formuler cela en termes relevant de la programmation informatique tels que :
 » SI la perception des tous premiers événements d’un surface musicale permet de constater une compatibilité avec les schèmes perceptifs culturels acquis,
ALORS poursuivre l’intégration des unités syntaxiques musicales perçues en fonction de leur degré de conformité et selon un processus globalisant pour atteindre le vitesse de traitement la plus grande possible,
SINON abandonner partiellement ou totalement ses modèles perceptifs (élargir le maillage de sa  » grille analytique « ) pour éprouver, si possible, d’autres stratégies perceptives.  »
Une procédure de ce type, si grossièrement brossée en trois pas, au moyen d’une hypothèse première donnant lieu à une poursuite positive – le plus fréquent – ou une alternative, est, dans le détail, d’une très grande complexité et peut compter un très grand nombre de  » pas de programme « . Dans A Generative Theory of Tonal Music, Lerdhal et Jackendoff ont élaboré un certain nombre de règles permettant la gestion du schème musical tonal suivant en cela l’hypothèse d’une démarche psychique structurée dans un processus de perception de la musique . Leurs travaux ouvrent certes une voie pleine de promesses dans la décomposition analytique d’une syntaxe et dévoilent, sans doute, une large part des mystères de la perception, mais, semblent davantage se situer dans la perspective lointaine d’une modélisation de type informatique que dans celle, peut-être moins rationnelle, d’une description du processus biologique (si toutefois une telle description exhaustive et  » standardisée  » pouvait être envisagée). La reconnaissance  » globalisante  » de la mélodie évoquée plus haut – qu’il est sans doute possible de généraliser aux autres dimensions musicales comme l’harmonie – s’entend comme une opération de  » fusion  » de pas de programme élémentaires doublée d’une évaluation permanente de la conformité aux schèmes acquis des unités mélodiques perçues. Ce paradigme a pour conséquence de classer ces unités (ou ces portions d’unités) selon leur degré de conformité aux modèles syntaxiques et concentrer ses capacités perceptives sur les seuls éléments inattendus dans le déroulement du discours. La surface musicale apparaît alors comme réduite à ces seuls éléments saillants, hors norme, et donc, traitée en un laps de temps beaucoup plus court.
D’autres travaux, enfin, ont placé des mélodies-test au sein d’un contexte harmonique variable. Les auditeur non éduqués musicalement n’ont pas vu leur perception mélodique affectée en fonction des changements de contexte harmonique qui modifiaient pourtant l’appartenance tonale de ces mélodies. Les auditeurs éduqués ont perçu implicitement les notes en terme de degré de la gamme et ont été perturbés par le changement de contexte harmonique.
Si, donc, les cadres cognitifs liés à la perception d’une syntaxe musicale quelconque sont indépendants du niveau d’éducation musicale, plus ce dernier est élevé, plus grande est la sophistication des schèmes perceptifs.

Nous verrons, à ce sujet, que, selon nous, si ces règles décrivent et expliquent tant la syntaxe du langage tonal occidental que, dans une certaine mesure, les opérations perceptives qui la reconnaissent, elles permettent mieux l’analyse de l’œuvre dans sa trace écrite qu’elles ne rendent compte du détail de la procédure psychique en temps réel, durant l’écoute même de cette œuvre. Considérer une surface musicale sous l’angle de sa seule trace graphique revient à nier la dimension temporelle du sonore pour le réduire à la commodité analytique des arts plastiques.
L’idée d’une fusion d’un certain nombre de  » pas de programme  » dans le processus psychique en une espèce d’unité opérante supérieure est un concept d’autant plus intéressant qu’il peut se poursuivre de manière pyramidale : plusieurs unités opérantes fusionnent à leur tour en accélérant de manière exponentielle les temps de traitement. La constitution de telles unités opérantes à quelque niveau que ce soit, est la conséquence directe de l’accoutumance aux schèmes culturels, groupements préférentiels de pas de programme.