Piero Cosi, Graziano Tisato
Istituto di Scienze e Tecnologie della Cognizione – Sezione di Fonetica e Dialettologia
(ex Istituto di Fonetica e Dialettologia) – Consiglio Nazionale delle Ricerche
e-mail: cosi@csrf.pd.cnr.it tisato@tin.it
www: http://nts.csrf.pd.cnr.it/Ifd
I really like to remember that Franco was the first person I met when I approached the “Centro di Studio per le Ricerche di Fonetica” and I still have a greatly pleasant and happy sensation of that our first warm and unexpectedly informal talk. It is quite obvious and it seems rhetorical to say that I will never forget a man like Franco, but it is true, and that is, a part from his quite relevant scientific work, mostly for his great heart and sincere friendship.
For “special people” scientific interests sometimes co-occur with personal “hobbies”. I remember Franco talking to me about the “magic atmosphere” raised by the voice of Demetrio Stratos, David Hykes or Tuvan Khomei1 singers and I still have clear in my mind Franco’s attitude towards these “strange harmonic sounds”. It was more than a hobby but it was also more than a scientific interest. I have to admit that Franco inspired my “almost hidden”, a part from few very close “desperate” family members, training in Overtone Singing2. This overview about this wonderful musical art, without the aim to be a complete scientific work, would like to be a small descriptive contribute to honor and remember Franco’s wonderful friendship.
“Khomei” or “Throat-Singing” is the name used in Tuva and Mongolia to describe a large family of singing styles and techniques, in which a single vocalist simultaneously produces two (or more) distinct tones. The lower one is the usual fundamental tone of the voice and sounds as a sustained drone or a Scottish bagpipe sound. The second corresponds to one of the harmonic partials and is like a resonating whistle in a high, or very high, register. For convenience we will call it “diphonic” sound and “diphonia” this kind of phenomenon.
Throat-Singing has almost entirely been an unknown form of art until rumours about Tuva and the peculiar Tuvan musical culture spread in the West, especially in North
1 We transcribe in the simplest way the Tuvan term, for the lack of agreement between the different authors: Khomei, Khöömii, Ho-Mi, Hö-Mi, Chöömej, Chöömij, Xöömij.
2 This is the term used in the musical contest to indicate the diphonic vocal techniques.
America, thanks to Richard Feynman [1]3, a distinguished American physicist, who was an ardent devotee of Tuvan matters.
This singing tradition is mostly practiced in the Central Asia regions including Bashkortostan or Bashkiria (near Ural mountains), Kazakhstan, Uzbekistan, Altai and Tuva (two autonomous republics of the Russian Federation), Khakassia and Mongolia (Fig. 1), but we can find examples worldwide: in South Africa between Xosa women [3], in the Tibetan Buddhist chants and in Rajastan.
The Tuvan people developed numerous different styles. The most important are: Kargyraa (chant with very low fundamentals), Khomei (it is the name generally used to indicate the Throat-Singing and also a particular type of singing), Borbangnadyr (similar to Kargyraa, with higher fundamentals), Ezengileer (recognizable by the quick rhythmical shifts between the diphonic harmonics), Sygyt (like a whistle, with a weak fundamental) [4]. According to Tuvan tradition, all things have a soul or are inhabited by spiritual entities. The legends narrate that Tuvan learnt to sing Khomei to establish a contact and assimilate their power trough the imitation of natural sounds. Tuvan people believe in fact that the sound is the way preferred by the spirits of nature to reveal themselves and to communicate with the other living beings.
Figure 1. Diffusion of the Throat-Singing in Central Asia regions.
In Mongolia most Throat-Singing styles take the name from the part of the body where they suppose to feel the vibratory resonance: Xamryn Xöömi (nasal Xöömi), Bagalzuuryn Xöömi (throat Xöömi), Tseedznii Xöömi (chest Xöömi), Kevliin Xöömi (ventral Xöömi, see Fig. 13), Xarkiraa Xöömi (similar to the Tuvan Kargyraa), Isgerex (rarely used style: it sounds like a flute). It happens that the singers itself confuse the different styles [5]. Some very famous Mongol artists (Sundui and Ganbold, for example) use a deep vibrato, which is not traditional, may be to imitate the Western singers (Fig. 13).
The Khakash people practice three types of Throat-Singing (Kargirar, Kuveder or Kilenge and Sigirtip), equivalent to the Tuvan styles Kargyraa, Ezengileer and Sygyt. We
3 Today, partly because of Feynman’s influence, there exists a society called “Friends of Tuva” in California, which circulates news about Tuva in the West [2].
find again the same styles in the peoples of the Altai Mountains with the names of Karkira, Kiomioi and Sibiski. The Bashkiria musical tradition uses the Throat-Singing (called Uzlau, similar to the Tuvan Ezengileer) to accompany the epic chants. In Uzbekistan, Kazakhstan and Karakalpakstan we find forms of oral poetry with diphonic harmonics [6].
The Tibetan Gyuto monks have also a tradition of diphonic chant, related to the religious believes of the vibratory reality of the universe. They chant in a very low register in a way that resembles (see later the difference) the Tuvan Kargyraa method. The aim of this tradition is mystical and consists in isolating the 5th or the 10th harmonic partial of the vocal sound. They produce in this way the intervals of 3rd or 5th (in relation to the fundamental) that have a symbolic relation with the fire and water elements (Fig. 14) [4].
Figure 2. Spectral section of a vocal (up) and a diphonic vocal (down).
What is so wonderful in Throat-Singing? It is the appearance of one of the harmonic partials that discloses the secret musical nature of each sound. When in Throat-Singing the voice splits in two different sounds, we experience the unusual sensation of a pure, discarnate, sine wave emerging from the sound. It is the same astonishment we feel when we see a rainbow, emerging from the white light, or a laser beam for the first time.
The natural sounds have a complex structure of harmonic or inharmonic sinusoidal partials, called “overtones” (Fig. 2). These overtones are not heard as distinct sounds, but their relative intensity defines our perception of all the parameters of sound (intensity, pitch, timbre, duration). The pitch corresponds to the common frequency distance between
the partials and the timbre takes into account all the partials as a whole. The temporal evolution of these components is what makes the sound of each voice or instrument unique and identifiable.
In the harmonic sounds, as the voice, the components are at the same frequency distance: their frequency is a multiple of the fundamental tone (Fig. 2). If the fundamental frequency is 100 Hz, the 2nd harmonic frequency is 200 Hz; the 3rd harmonic frequency is 300 Hz, and so on. The harmonic partials of a sound form a natural musical scale of unequal temperament, as whose in use during the Renaissance [7]. If we only take into consideration the harmonics that are easy to produce (and to perceive also), i.e. from the 5th to the 13th, and if we assume for convenience a C3 131 Hz as starting pitch, we can get the following musical notes:
Harm. N. Freq. (Hz) Note Interval with C3
5 655 E5 3rd
6 786 G5 5th
7 917 A+ 6th +
8 1048 C6 Octave
9 1179 D6 2nd
10 1310 E6 3rd
11 1441 F6+ 4th +
12 1572 G6 5th
13 1703 A6- 6th-
The series of 8th, 9th, 10th, 12th, 13th harmonic and the series from 6th to 10th are two possible pentatonic scales to play. Note that the frequency differences between these scales and the tempered scale are on the order of 1/8th of a tone (about 1.5%).
The Throat-Singing allows extracting the notes of a natural melody from the body of the sound itself.
The spectral envelope of the overtones is essential for the language comprehension. The glottal sound is filtered by the action of the vocal tract articulation, shaping the partials in the voice with some characteristic zones of resonance (called formants), where the components are intensified, and zones of anti-resonance, where the partials are attenuated (Fig. 2-3). So, the overtones allow us to tell apart the different vocal sounds. For example the sounds /a/, /e/, /i/, /o/, etc. uttered or sung at the same pitch, nevertheless sound different to our ears for the different energy distribution of the formants (Fig. 2).
The auditory mechanisms “fuse” the partials in one single “image”, which we identify as voice, musical instrument, noise, etc. [8]. In the same way, the processing of visual data tends to group different dots into simple shapes (circle, triangle, square, etc.). The creation of auditory images is functional to single out and to give a meaning to the sonic sources around us.
The hearing mechanisms organize the stream of perceptive data belonging to different components of different sounds, according to psychoacoustics and Gestalt principles. The “grouping by harmonicity”, for example, allows the fusion in the same sound of the frequency partials, which are multiples of a common fundamental. The “common fate” principle tells that we integrate the components of a complex sound, which show the same amplitude and frequency behaviour (i.e. similar modulation and microvariation, similar attack and decay, similar vibrato, etc.) [8]. If one of these partials reveals a particular evolution (i.e. it is mistuned or has not the same frequency and amplitude modulation, etc.),
it will be heard as a separate sound. So the Throat-Singing is a marvelous example to understand the illusory nature of perception and the musical structure of the sound.
Figure 3. Resonance envelope for an uniform vocal tract (left). A constriction on the pharynx moves the formants so that the intensity of partials in the 2500-3500 Hz region increases (right).
In the Throat-Singing the singer learn to articulate the vocal tract so that one of the formants (usually the first or the second) coincide with the desired harmonic, giving it a considerable amplitude increase (even more than 30 dB, see in Fig. 2 the 10th harmonic) and making it perceptible. Unlike the normal speech, the diphonic harmonic can exceed a lot the lower partials intensity (Fig. 2). Soprano singers use similar skill to control the position of the 1st formant, tuning it to the fundamental with the proper articulation (i.e. proper opening of the mouth), when they want to sing a high note [9].
There are many different methods to produce the diphonic sound [5-6], but we can summarize them in two possible categories, called “single cavity method” or “two cavities method”, that are characterized by the use or not of the tongue, according to the proposal of Tran Quang Hai [4].
In this method, the tongue doesn’t move and remains flat or slightly curved without touching the palate. In this case the vocal tract is like a continuous tube (Fig. 3). The selection of the diphonic harmonic is obtained by the appropriate opening of the mouth and the lips. The result is that the formants frequency raises if the vocal tract lengthens (for example with a /i/) and that the formants frequency lowers, if it extends (for example with a /u/). With this technique the 1st formant movement allows the selection of the partials. As we can see in Fig. 4, we cannot go beyond 1200 Hz. The diphonic harmonic is generally feeble, masked by the fundamental and the lower partials, so the singers nasalize the sound to reduce their intensity [10-11].
Figure 4. Opening the mouth controls the 1st formant position. The movement of the tongue affects the 2nd formant and allows the harmonic selection in a large frequency range.
In this method, the tongue is raised so to divide the vocal tract in two main resonators, each one tuned on a particular resonance. By an appropriate control, we can obtain to tune two separate harmonics, and thereby to make perceptible, not one but two (or more) pitches at the same time (Fig. 9-12).
There are three possible variants of this technique:
The first corresponds to the Khomei style: to select the desired harmonic the tip of the tongue and the tongue body moves forward (higher pitch) and backward (lower pitch) along the palate.
The second is characteristic of the Sygyt style: the tip of the tongue remains fixed behind the upper teeth while the tongue body rises to select the harmonics.
In the third variant, the movement of the tongue root selects the diphonic harmonic. Shifting the base of the tongue near the posterior wall of the throat, we obtain the lower harmonics. On the contrary, moving the base of the tongue forward, we pull out the higher harmonics [6].
A different method has been proposed by Tran Quang Hai to produce very high diphonic harmonics (but not to control the selection of the desired component). It consists
to keep the tongue pressed by the molars, while singing the vowels /u/ and /i/, and maintaining a strong contraction of the muscles at the abdomen and the throat [4].
The advantage of the two cavities techniques is that we can use the 2nd formant to reinforce the harmonics that are in the zone of best audibility. In this case the diphonic harmonic reaches the 2600 Hz (Fig. 4). Furthermore the movement of the tongue affects the formants displacement in opposite directions. The separation of the 1st and the 2nd formant produces in between a strong anti-resonance (Fig. 2), which helps the perception of the diphonic harmonic.
In all these methods it is useful a slight discrete movement of the lips to adjust the formants position.
There are three main mechanisms required to reinforce the effect of segregation of the diphonic sound:
• The appropriate movement of the lips, tongue, jaw, soft palate, throat, to produce a fluctuation in the amplitude of the selected harmonic, so that it differentiates from the other partials that remain static. The auditory mechanisms are tuned to capture the more subtle changes in the stream of auditory information, useful to discriminate the different sounds [8].
• The nasalization of the sound. In this way we create an anti-resonance at low frequency (<400 Hz) that attenuates the lower partials responsible for the masking of the higher components [10-11]. The nasalization provokes also the attenuation of the third formant [12], which improves the perception of the diphonic harmonic (Fig. 2).
• The constriction of the pharynx region (false ventricular folds, arytenoids, root of the epiglottis), which increases the amplitude of the overtones in the 2000-4000 Hz region (Fig. 2). This is also what happens in the “singer’s formant”, the technique used by the singers to reinforce the partials in the zone of best audibility and to avoid the masking of the voice by the orchestra, generally very strong in the low frequency range [9]. For this reason the Throat-Singing technique requires a tuning extremely precise and selective, in order to avoid the amplification of a group of harmonic partials, as in the “singer’s formant”.
We disregard in this paper the polyphonic singing that could produces some diphonic effects: for example the phenomenon of the quintina in the Sardinia religious singing, where the coincidence of the harmonics of 4 real voices produces the perception of a 5th virtual voice (Fig. 5) [13].
There are in the literature many terms to indicate the presence of different perceptible sounds in a single voice: Khomei, Throat-Singing, Overtone Singing, Diphonic Singing, Biphonic Singing, Overtoning, Harmonic Singing, Formantic Singing, Chant, Harmonic Chant, Multiphonic Singing, bitonality, diplophonia, vocal fry, etc.
According to the pioneer work in the domain of the vocal sounds made by The Extended Vocal Techniques Ensemble (EVTE) of San Diego University and bearing in mind that there is little agreement regarding classifications [4], [14-15], the best distinctive criterion for the diphonia seems to be the characterization of the sound sources that produce the perception of the diphonic or multiphonic sound [16].
Following this principle, we can distinguish between Bitonality and Diphonia:
• Bitonality: In this case there are two distinct sound sources that produce two sounds. The pitches of the two sounds could be or not in harmonic relationship. This category includes: diplophonia, bitonality and vocal fry.
• Diphonia: The reinforcement of one (or more) harmonic partial(s) produces the splitting of the voice in two (or more) sounds. This category includes: Khomei, Throat-Singing, Overtone Singing, Diphonic Singing, Biphonic Singing, Overtoning, Harmonic Singing, Chant, Harmonic Chant.
Fig. 5 Sardinia religious folk singing. The pitches of the 4 voices of the choir are F1 88 Hz, C2 131 Hz, F2 176 Hz, A3# 230 Hz. The 8th harmonic of the F1, the 6th of the C2, the 4th of the F2 and the 3rd of the A# coincide at 700 Hz and produce the perception of a 5th voice.
Diplophonia: The vibration of the vocal folds is asymmetrical. It happens that after a normal oscillatory period, the vibration amplitude that follows is reduced. There is not the splitting of the voice in two sounds, but the pitch goes down one octave lower and the timbre assumes a typical roughness. For example, assuming as fundamental pitch a C3 130.8 Hz, the resulting pitch will be C2 65.4 Hz. If the amplitude reduction happens after two regular vibrations, the actual periodicity triplicates and then the pitch lowers one octave and a 5th. The diplophonic voice is a frequent pathology of the larynx (as in unilateral vocal cord paralysis), but can be also obtained willingly for artistic effects (Demetrio Stratos was an expert of this technique) [16-18].
Bitonality: The two sound sources are due to the vibration of two different parts of the glottis cleft. This technique requires a strong laryngeal tension [16-17]. In this case there is not necessarily a harmonic relationship between the fundamentals of the two sounds. In the Tuvan Kargyraa style, the second sound source is due to the vibration of the supraglottal structures (false folds, arytenoids, aryepiglottic folds that connects the arytenoids and the epiglottis, and the epiglottis root). In this case generally (but not always) there is a 2:1 frequency ratio between the supraglottal closure and vocal folds closure. As in the case of Diplophonia, the pitch goes down one octave lower (or more) [19-21].
Vocal fry: The second sound is due in this case to the periodic repetition of a glottal pulsation of different frequency [14]. It sounds like the opening of a creaky door (another common designation is “creaky voice”). The pulse rate of vocal fry can be controlled to produce a range from very slow single clicks to a stream of clicks so rapid to be perceived as a discrete pitch. Therefore vocal fry is a special case of bitonality: the perception of a second sound depends on a pulses train rate and not on the spectral composition of the single sound.
Diphonic and Biphonic refer to any singing that sounds like two (or more) simultaneous pitches, regardless of technique. Use of these terms is largely limited to academic sources. In the scientific literature the preferred term to indicated Throat-Singing is Diphonic Singing.
Multiphonic Singing indicates a complex cluster of non-harmonically related pitches that sounds like the vocal fry or the creaky voice [14]. The cluster may be produced expiring as normal, or also inhaling the airflow.
Throat Singing is any technique that includes the manipulation of the throat to produce a melody with the harmonics. Generally, this involves applying tension to the region surrounding the vocal cords and the manipulation of the various cavities of the throat, including the ventricular folds, the arytenoids, and the pharynx.
Chant generally refers to religious singing in different traditions (Gregorian, Buddhist, Hindu chant, etc.). As regards the diphonia, it is noteworthy to mention the low singing practiced by Tibetan Buddhist monks of the Gyuto sect. As explained before, they reinforce the 5th or the 10th harmonic partial of the vocal sound for mystical and symbolic purposes (Fig. 14). This kind of real diphonia must be distinguished from resonantial effects (enhancement of some uncontrolled overtones) that we can hear in Japanese Shomyo Chant [4] and also in Gregorian Chant.
Harmonic Singing is the term introduced by David Hykes to refer to any technique that reinforces a single harmonic or harmonic cluster. The sound may or may not split into two or more notes. It is used as a synonym of Overtone Singing, Overtoning, Harmonic Chant and also Throat-Singing.
Overtone Singing can be considered to be harmonic singing with an intentional emphasis on the harmonic melody of overtones. This is the name used by Western artists that utilizes vowels, mouth shaping, and upper-throat manipulations to produce melodies and textures. It is used as a synonym of Harmonic Singing, Overtoning, Harmonic Chant and also Throat-Singing.
Fig. 6 Tuvan Khomei Style. The fundamental is a weak F#3+ 189 Hz. The diphonic harmonics are the 6th (C#6+ 1134 HZ), 7th (E6 1323 Hz), 8th (F#6+ 1512 Hz), 9th (G#6+ 1701 Hz), 10th (A#6+ 1890 Hz) and 12th (C#7+ 2268 Hz).
Although there is no widespread agreement, Khomei comprises three major basic Throat-Singing methods called Khomei, Kargyraa, and Sygyt, two main sub methods called Borbangnadyr and Ezengileer and various other sub styles.
Khomei means “throat” or “pharynx” and it is not only the generic name given to all throat-singing styles for Central Asia, as underline above, but also a particular style of singing. Khomei is the easiest technique to learn and the most practiced in the West. It produces clear and mild harmonics with a fundamental usually within the medium range of the singer’s voice (Fig. 6). In Khomei style there are two (or more) notes clearly audible. Technically the stomach remains relaxed and there is a low-level tension on larynx and ventricular folds, whereas Sygyt style requires a very strong constraint of these organs (Fig. 7). The tongue remains seated flatly between the lower teeth as in the Single Cavity technique, or raises and moves as in the Two Cavities techniques. The selection of the desired harmonic comes mainly from a combination of different lips, tongue and throat movements.
Sygyt means “whistle” and actually sounds like a flute. This style is characterized by a strong, even piercing, harmonic and can be used to perform complex and very distinct melodies (Fig. 10). It has its roots in the Khomei method and has the same range for the fundamental. Sygyt is sung with a half-open mouth and the tip of tongue placed behind front teeth as if pronouncing the letter “L”. The tongue tip is kept in the described position, while the tongue body moves to select the harmonic. This is the same technique described above for the Khomei method. The difference is in the timbre quality of the sound lacking of energy in the low frequencies. To produce a crystal-clear, flute-like overtone,
characteristic of the Sygyt style, it is necessary to learn how to filter out the lower harmonic components, that usually mask the overtone sensation.
Figure 7. Position of the arytenoids in Khomei (left) and Sygyt style [21].
Crucial for achieving this goal is a considerable pressure from the belly/diaphragm, acting as a bellows to force the air through the throat. Significant tension is required in the throat as well, to bring the arytenoids near the root of the epiglottis (Fig. 7). In this way, we obtain the displacement of first 3 formants in the high frequency zone (Fig. 3). The result is that the fundamental and the lower harmonics are so attenuated to be little audible (Fig. 10).
It is possible to sing Sygyt either directly through the center of the mouth, or, tilting the tongue, to one side or the other. Many of the best Sygyt singers “sing to the side”: directing the sound along the hard surfaces of the teeth enhances the bright, focused quality of the sound.
Kargyraa style produces an extremely low sound that resembles the roaring of a lion, the howling of a wolf, and the croaking of a frog and all these mixed together (Fig. 9). Kargyraa means “hoarse voice”. As hawking and clearing the throat before speaking Kargyraa is nothing else than a deep and continuous hawking. This hawking must rise from the deepest part of the windpipe; consequently low tones will start resonating in the chest. Overtones are amplified by varying the shape of the mouth cavity and the position of the tongue. Kargyraa is closely linked to vowel sounds: the selection of diphonic harmonic corresponds to the articulation of a particular vowel (/u/, /o/, //, /a/, etc.), which the singer learnt to associate with the desired note.
This technique is a mixture of Diphonia and Bitonality (see 6.1): in fact the supraglottal structures start to vibrate with the vocal folds, but at a half rate. The arytenoids also can vibrate touching the root of the epiglottis, hiding the vocal folds and forming a second “glottic” source [21]. The perceived pitch will be one octave lower than normal (Fig. 9), but also one octave and a 5th lower [20]. In the case of Tran Quang Hai voice, the fibroendoscopy reveals the vibration and the strong constriction of the arytenoids that hide completely the vocal folds (Fig. 8).
We must distinguish this technique from the Tibetan Buddhist chant, which is produced with the vocal folds relaxed as possible, and without any supraglottal vibration. The Tibetan chant is more like the Tuvan Borbangnadyr style with low fundamentals.
Figure 8. Simulation of the Kargyraa style by Tran Quaang Hai: the arytenoids move against the root of the epiglottis and hide the vocal folds [21].
Borbangnadyr is not really a style, as are Khomei, Sygyt and Kargyraa, but rather a combination of effects applied to one of the other styles. The name comes from the Tuvan word for “rolling”, because this style features highly acrobatic trills and warbles, reminiscent of birds, babbling brooks, etc. While the name Borbangnadyr is currently most often used to describe a warbling applied to Sygyt, it is also applied to some lower-pitched singing styles, especially in older texts. The Borbangnadyr style with low fundamentals sounds like the Tibetan Buddhist chant.
Rather the pitch movement of the melody, Borbangnadyr generally focuses the attention on three different harmonics, the 8th, 9th, and 10th, which periodically take their turn in prominence (Fig. 11). In this style the singer easily can create a triphonia effect between the fundamental, a second sound corresponding to the 3rd harmonic at an interval of 5th, and the tremolo effect on the higher harmonics.
Ezengileer comes from a word meaning “stirrup” and features rhythmic harmonic oscillations intended to mimic the sound of metal stirrups, clinking to the beat of a galloping horse (Fig. 12). Ezengileer is a variant of Sygyt style and differs considerably from singer to singer, the common element being the “horse-rhythm” of the harmonics.
In the West the Overtone Singing technique has unexpectedly become very popular, starting into musical contests and turning very soon to mystical, spiritual and also therapeutic applications. The first to make use of a diphonic vocal technique in music was Karlheinz Stockhausen in Stimmung [22]. He was followed by numerous artists and amongst them: the EVTE (Extended Vocal Techniques Ensemble) group at the San Diego University in 1972, Laneri and his Prima Materia group in 1973, Tran Quang Hai in 1975, Demetrio Stratos in 1977 [17-18], Meredith Monk in 1980, David Hykes and his Harmonic Choir in 1983 [23], Joan La Barbara in 1985, Michael Vetter in 1985, Christian Bollmann in 1985, Noah Pikes in 1985, Michael Reimann in 1986, Tamia in 1987, Bodjo Pinek in 1987, Josephine Truman in 1987, Quatuor Nomad in 1989, Iegor Reznikoff in 1989, Valentin Clastrier in 1990, Rollin Rachele in 1990 [24], Thomas Clements in 1990, Sarah Hopkins in 1990, Les Voix Diphoniques in 1997.
Figure 9. Vasili Chazir sings “Artii-sayir” in the Kargyraa Tuvan style. The fundamental pitch is B1 61.2 Hz. The diphonic harmonics are the 6th (F#4- 367 HZ), 8th (B4 490 Hz), 9th (C#5 550 Hz), 10th (D#5- 612 Hz) and 12th (F#5- 734 Hz). The diphonic (but not perceptible) harmonics 12th-24th are in octave with the previous one. In the 2600-2700 Hz region, a steady formant amplifies the 43rd and 44th harmonics.
Figure 10. Tuvan Sygyt style. The fundamental is a weak E3+ 167 Hz. The melody uses the 8th (E6+ 1336 Hz), 9th (F#6+ 1503 Hz), 10th (G#6+ 1670 Hz) and 12th (B6+ 2004 Hz). There is a rhythmic shift between contiguous harmonics each 900 ms. In the 3000-3200 Hz zone, we can see a second resonance region.
Figure 11. Tuvan Borbangnadyr style. The fundamental is a weak F#2 92 Hz. We can see on the harmonics 7-11 the effect of a periodic formantic shift (6 Hz about).
Figure 12. Tuvan Ezengileer style. The fundamental is A#2 117 Hz.
The most famous proponent of this type of singing is David Hykes. Hykes experimented with numerous innovations including changing the fundamental (moveable drone) and keeping fixed the diphonic formant, introducing text, glissando effects, etc., in numerous works produced with the Harmonic Choir of New York (Fig. 15) [23].
In the recent past, some work has been done on the analysis of Khomei, and more has been done on Overtone Singing generally. The focus on this research has been on the effort to discover exactly how overtone melodies are produced. Hypotheses as to the mechanics of Overtone Singing range from ideas as to the necessary physical stance and posture used by the singer during a performance, to the actual physical formation of the mouth cavity in producing the overtones.
Aksenov was the first to explain the diphonia as the result of the filtering action of the vocal tract [25-27]. Some years later Smith et al. engaged in an acoustical analysis of the Tibetan Chant [28]. In 1971, Leipp published an interesting report on Khomei [29]. Tran Quang Hai carried out a deep research on all the diphonic techniques [4-5][30]. The mechanism of the diphonia was demonstrated in 1989 by two different methodologies. The first applied direct clinical-instrumental methods to study the vocal tract and vocal cords [31-32]. The optic stroboscope revealed the perfect regularity of the vocal folds vibration. The second method made use of a simple linear prediction model (LPC) to analyse and synthesize the diphonic sound [33-34]. The good quality of the resynthesis demonstrated that the diphonia is due exclusively to the spectral resonance envelope. The only difference between normal and diphonic sound consists in the unusual narrow bandwidth of the prominent formant.
Several researchers seem to agree that the production of the harmonics in Throat-Singing is essentially the same as the production of an ordinary vowel. Bloothooft reports an entire investigation of Overtone Singing, based on the similarity of this kind of phonation to the articulation of vowel [10].
Other authors, on the contrary, argue that the physical act of creating overtones may originate in vowel production, but the end product, the actual overtones themselves, are far from vowel-like [35]. They stated, in fact, that for both acoustic and perceptual reasons, the production of an overtone melody cannot be described as vowel production.
Acoustically, a vowel is distinctive because of its formant structure. In Overtone Singing, the diphonic formant is reduced to one or a few harmonics, often with surrounding harmonics attenuated as much as possible. Perceptually, Overtone Singing usually sounds nothing like an identifiable vowel. This is primarily because, a major part of the overtone-sung tone has switched from contributing to the timbre of the tone to provoking the sensation of melody and such a distorted “vowel” can convey little phonetic information.
All musical sounds contain overtones or tones that resonate in fixed relationships above a fundamental frequency. These overtones create tone color, and help us to differentiate the sounds of different music instruments or one voice and another.
Different cultures have unique manifestations of musical traditions, but, what it is quite interesting, is that some of them share at least one aspect in common: the production of overtones in their respective vocal music styles. Among these, each tradition has also its own meanings and resultants from Overtone Singing, but they are often related to a common sphere of spirituality. Overtones in Tibetan and Gregorian Chant, for example, are linked with spirituality, and even health and well being. Overtones in Tuvan Khomei have at least three different meanings: shamanistic, animistic, and aesthetic.
Figure 13. Mongolia: Ganbold sings a Kevliin Xöömi (ventral Xöömi, similar to Tuvan Sygyt.). The pitch is G3# 208 Hz. The diphonic harmonics are 6th (D#6 1248 Hz), 7th (F#6- 1456 Hz), 8th (G#6 1664 Hz), 9th (A#6+ 1872 Hz), 10th (C7- 2080 Hz), 12th (D#7 2496 Hz). There is a 6 Hz strong vibrato.
Figure 14. Tibetan Gyuto Chant in the Yang style. The pitch is a weak A1 56 Hz. In the beginning, the singer chant a vowel /o/ that reinforces the 5th partial (and the 10th). In the choir part, the articulation of the prayers produces a periodic emerging of all the scale of the harmonics up to the 30th. There is also a fixed resonance at 2200 Hz.
Figure 15. David Hykes and the Harmonic Choir. In this 100 s passage from “Hearing the Solar Winds” [23], the pitch moves slowly from A3, A#3, B3, C4, A3, to the final G3. The diphonic harmonics change in the range 6th-12th.
We would like to thank Sami Jansson [36] and Steve Sklar [15] for the useful information they made available to us via their respective web sites.
[1] Feynman (http://www.feynmanonline.com/), website.
[2] Friends of Tuva (http://www.fotuva.org/), website.
[3] Dargie D., “Some Recent Discoveries and Recordings in Xhosa Music”, 5th Symposium on Ethnomusicology, University of Cape Town, International Library of African Music (ed) , Grahamtown, 1985, pp. 29-35.
[4] Tran Quang Hai, Musique Touva, 2000, (http://www.baotram.ovh.org/tuva.html), website.
[5] Tran Quang Hai, Zemp H.,“Recherches expérimentales sur le Chant Diphonique”, Cahiers de Musiques Traditionnelles, Vol. 4, Genève, 1991, pp. 27-68.
[6] Levin Th., Edgerton M., The Throat Singers of Tuva, 1999,
(http://www.sciam.com/1999/0999issue/0999levin.html), website
[7] Walcott R., “The Chöömij of Mongolia – A spectral analysis of Overtone Singing”, Selected Reports in Ethnomusicology, UCLA, Los Angeles, 1974, 2 (1), pp. 55-59.
[8] Bregman A., Auditory scene analysis: the perceptual organization of sound, MIT Press, Cambridge, 1990.
[9] Sundberg J., The science of the singing voice, Northern Illinois University Press, De Kalb, Illinois, 1987.
[10] Bloothooft G., Bringmann E., van Capellen M., van Luipen J.B., Thomassen K.P., “Acoustic and Perception of Overtone Singing”. In Journal of the Acoustical Society of America, JASA Vol. 92, No. 4, Part 1, 1992, pp. 1827-1836.
[11] Stevens K., Acoustic Phonetics, MIT Press, Cambridge, 1998.
[12] Fant G., Acoustic theory of speech production, Mouton, The Hague, 1960.
[13] Lortat-Jacob B., “En accord. Polyphonies de Sardaigne: 4 voix qui n’en font qu’une”, Cahiers de Musiques Traditionnelles, Genève, 1993, Vol. 6, pp. 69-86.
[14] Kavasch D., “An introduction to extended vocal techniques”, Report of CME, Univ. of California, San Diego, Vol. 1, n. 2, 1980, pp. 1-20.
[15] Sklar S., Khöömei Overtone Singing, (http://www.atech.org/khoomei), website.
[16] Ferrero F., Ricci Maccarini A., Tisato G., “I suoni multifonici nella voce umana”, Prooceedings of XIX Convegno AIA, Napoli, 1991, pp. 415-422.
[17] Ferrero F., Croatto L., Accordi M., “Descrizione elettroacustica di alcuni tipi di vocalizzo di Demetrio Stratos”, Rivista Italiana di Acustica, Vol. IV, n. 3, 1980, pp. 229-258.
[18] Stratos D., Cantare la voce, Cramps Records CRSCD 119, 1978.
[19] Dmitriev L., Chernov B., Maslow V., “Functioning of the voice mechanism in double voice Touvinian singing”, Folia Phoniatrica, Vol. 35, 1983, pp. 193-197.
[20] Fuks L., Hammarberg B., Sundberg J., “A self-sustained vocal-ventricular phonation mode: acoustical, aerodynamic and glottographic evidences”, KTH TMH-QPSR, n.3, Stockholm, 1998, pp. 49-59.
[21] Tisato G., Ricci Maccarini A., Tran Quang Hai, “Caratteristiche fisiologiche e acustiche del Canto Difonico”, Proceedings of II Convegno Internazionale di Foniatria, Ravenna, 2001, (to be printed).
[22] Stockhausen K., Stimmung, Hyperion A66115, 1968.
[23] Hykes D., David Hykes and the Harmonic Choir, (http://harmonicworld.com), website.
[24] Rachele R., “Overtone Singing Study Guide”, Cryptic Voices Productions (ed), Amsterdam, 1996, pp. 1-127.
[25] Aksenov A.N., Tuvinskaja narodnaja muzyka, Mosca, 1964.
[26] Aksenov A.N., “Die stile der Tuvinischen zweistimmigen sologesanges”, Sowjetische Volkslied und Volksmusikforschung, Berlin, 1967, pp. 293-308.
[27] Aksenov A.N., “Tuvin folk music”, Journal of the Society for Asian Music, Vol. 4, n. 2, New York, 1973, pp. 7-18.
[28] Smith H., Stevens K.N., Tomlinson R.S., “On an unusual mode of singing of certain Tibetan Lamas”, Journal of Acoustical Society of America, JASA. 41 (5) , USA, 1967, pp. 1262-4.
[29] Leipp M., “Le problème acoustique du Chant Diphonique”, Bulletin Groupe d’Acoustique Musicale, Univ. de Paris VI, n. 58, 1971, pp. 1-10.
[30] Tran Quang Hai, “Réalisation du chant diphonique”, Le Chant diphonique, Institut de la Voix, Limoges, dossier n° 1, 1989, pp. 15-16.
[31] Pailler J.P., “Examen video du larynx et de la cavité buccale de Monsieur Trân Quang Hai”, Le Chant Diphonique, Institut de la Voix, Limoges, dossier n° 1, 1989, pp. 11-13.
[32] Sauvage J.P., “Observation clinique de Monsieur Trân Quang Hai”, Le Chant Diphonique, Institut de la Voix, Limoges, dossier n° 1, 1989, pp. 3-10.
[33] Tisato G., “Analisi e sintesi del Canto Difonico”, Proceedings VII Colloquio di Informatica Musicale (CIM), Cagliari, 1989, pp. 33-51.
[34] Tisato G., Ricci Maccarini A., “Analysis and synthesis of Diphonic Singing”, Bulletin d’Audiophonologie, Vol. 7, n. 5-6, Besançon, 1991, pp. 619-648.
[35] Finchum H., Tuvan Overtone Singing: Harmonics Out of Place,
(http://www.indiana.edu/~folklore/savail/tuva.html), website.
[36] Jansson S., Khöömei Page (http://www.cc.jyu.fi/~sjansson/khoomei.htm), website.
[37] Leothaud G., “Considérations acoustiques et musicales sur le Chant Diphonique”, Le Chant Diphonique, Institut de la Voix, Limoges, dossier n° 1, 1989, pp. 17-43.
[38] Zarlino G., Istitutioni Harmoniche, Venice, 1558.





Piero Cosi, Graziano Tisato

Istituto di Scienze e Tecnologie della Cognizione – Sezione di Fonetica e Dialettologia
(ex Istituto di Fonetica e Dialettologia) – Consiglio Nazionale delle Ricerche
e-mail: cosi@csrf.pd.cnr.it tisato@tin.it
www: http://nts.csrf.pd.cnr.it/Ifd

I really like to remember that Franco was the first person I met when I
approached the “Centro di Studio per le Ricerche di Fonetica” and I still
have a greatly pleasant and happy sensation of that our first warm and
unexpectedly informal talk. It is quite obvious and it seems rhetorical to say
that I will never forget a man like Franco, but it is true, and that is, a part
from his quite relevant scientific work, mostly for his great heart and sincere

For “special people” scientific interests sometimes co-occur with personal “hobbies”. I
remember Franco talking to me about the “magic atmosphere” raised by the voice of
Demetrio Stratos, David Hykes or Tuvan Khomei1
singers and I still have clear in my mind
Franco’s attitude towards these “strange harmonic sounds”. It was more than a hobby but it
was also more than a scientific interest. I have to admit that Franco inspired my “almost
hidden”, a part from few very close “desperate” family members, training in Overtone
. This overview about this wonderful musical art, without the aim to be a complete
scientific work, would like to be a small descriptive contribute to honor and remember
Franco’s wonderful friendship.


Caratteristiche fisiologiche e acustiche del
Canto Difonico
Graziano G. Tisato, Andrea Ricci Maccarini, Tran Quang Hai

Il Canto Difonico (Overtone Singing o Canto delle Armoniche) è una tecnica di canto
affascinante dal punto di vista musicale, ma particolarmente interessante anche dal punto di vista
scientifico. In effetti con questa tecnica si ottiene lo sdoppiamento del suono vocale in due suoni
distinti: il più basso corrisponde alla voce normale, nel consueto registro del cantante, mentre il
più alto è un suono flautato, corrispondente ad una delle parziali armoniche, in un registro acuto
(o molto acuto). A seconda dell’altezza della fondamentale, dello stile e della bravura,
l’armonica percepita può andare dalla seconda alla 18° (e anche oltre).
Per quanto riguarda la letteratura scientifica, il Canto Difonico compare per la prima
volta in una memoria presentata da Manuel Garcia di fronte all’Accademia delle Scienze a Parigi
il 16 novembre 1840, relativa alla difonia ascoltata da cantanti Bashiri negli Urali (Garcia, 1847).
In un trattato di acustica pubblicato qualche decennio più tardi (Radau, 1880), la realtà di questo
tipo di canto è messa in discussione: “…Si deve classificare fra i miracoli ciò che Garcia
racconta dei contadini russi da cui avrebbe sentito cantare contemporaneamente una melodia
con voce di petto e un’altra con voce di testa”.
Deve trascorrere quasi un secolo dal 1840 prima che si ottenga un riscontro obbiettivo
della verità del rapporto di Garcia, con le registrazioni fatte nel 1934, fra i Tuva, da etnologi
russi. Di fronte all’evidenza della analisi compiuta nel 1964 da Aksenov su quelle registrazioni, i
ricercatori cominciarono a prendere in considerazione il problema del Canto Difonico (Aksenov,
1964, 1967, 1973). Aksenov è il primo ad attribuire la spiegazione del fenomeno al filtraggio
selettivo dell’inviluppo formantico del tratto vocale sul suono glottico, e a paragonarlo allo
scacciapensieri (con la differenza che la lamina di questo strumento può ovviamente produrre
solo una fondamentale fissa). In quel periodo compare anche un articolo sul Journal of
Acoustical Society of America (JASA) sulla difonia nel canto di alcune sette buddiste tibetane,
in cui gli autori interpretano correttamente l’azione delle formanti sulla sorgente glottica, senza
tuttavia riuscire a spiegare come i monaci possano produrre fondamentali così basse (Smith et
al., 1967).
A partire dal 1969, Leipp con il Gruppo di Acustica Musicale (GAM) dell’Università
Paris VI s’interessa al fenomeno dal punto di vista acustico (Leipp, 1971). Tran Quang Hai, del
Musée de l’Homme di Parigi, intraprende in quel periodo una serie di ricerche sistematiche, che
portano alla scoperta della presenza del Canto Difonico in un numero insospettato di tradizioni
culturali diverse (Tran Quang,1975, 1980, 1989, 1991a, 1991b, 1995, 1998, 1999, 2000, e il sito
Web http://www.baotram.ovh.org). L’aspetto distintivo della ricerca di Tran Quang Hai è la
sperimentazione e verifica sulla propria voce delle diverse tecniche e stili di canto, che gli ha
permesso la messa a punto di metodi facili di apprendimento (Tran Quang, 1989). Nel 1989
Tisato analizza e sintetizza il Canto Difonico con un modello LPC, dimostrando per questa via
che la percezione degli armonici dipende esclusivamente dalle risonanze del tratto vocale
(Tisato, 1989a, 1991). Nello stesso anno anche il rilevamento endoscopico delle corde vocali di
Tran Quang Hai confermava la normalità della vibrazione laringea (Sauvage, 1989, Pailler,
1989). Nel 1992 compare uno studio più approfondito dal punto di vista fonetico e percettivo,
che mette in risalto la funzione della nasalizzazione nella percezione della difonia, la presenza di una adduzione molto forte delle corde vocali e una loro chiusura prolungata (Bloothooft et al.,
1992). Gli autori contestano l’ipotesi fatta da Dmitriev che il Canto Difonico sia una diplofonia,
con due sorgenti sonore prodotte dalle vere e dalle false corde vocali (Dmitriev et al., 1983). Nel
1999 Levin pubblica sul sito Web di Scientific American un articolo particolarmente interessante
per gli esempi musicali che si possono ascoltare, le radiografie filmate della posizione degli
articolatori e della lingua, e la spiegazione delle tecniche di produzione dei vari stili del Canto
Difonico (Levin et al., 1999, http://www.sciam.com/1999/0999issue/0999levin.html).

Il lavoro che presentiamo qui è il risultato di una recente sessione di lavoro con Tran
Quang Hai (ottobre 2001), in cui abbiamo esaminato i meccanismi di produzione del canto
difonico con fibroendoscopia. La strumentazione utilizzata era costituita da un fibroendoscopio
flessibile collegato ad una fonte di luce stroboscopica, per valutare quello che succedeva a livello
della faringe e della laringe, e un’ottica rigida 0°, collegata ad una fonte di luce alogena, per
esaminare il cavo orale.

Fig. 1 Azione dell’articolazione sulla posizione di F1 e F2: l’apertura della bocca sposta F1 e F2
nella stessa direzione, mentre il movimento antero-posteriore della lingua determina il
movimento contrario di F1 e F2. (ad. da Cosi et al., 1995) La tradizione del Canto Difonico
Il Canto Difonico, ignorato per centinaia di anni dall’Occidente, si è rivelato molto più
diffuso di quello che si potesse immaginare nei primi anni della scoperta: lo troviamo praticato in
tutta l’Asia centrale dalla Bashiria (parte europea della Russia vicino agli Urali meridionali), alla
Mongolia, passando dalle popolazioni dell’Altai, della Repubblica Tuva (confinante con la
Mongolia) fino ai Khakash (situati a nord di Tuva).
I Tuva hanno sviluppato una molteplicità di stili sostanzialmente riconducibili a 5:
Kargiraa (canto con fondamentali molto basse), Khomei (che significa gola o faringe e che è il
termine generalmente usato per indicare il Canto Difonico), Borbannadir (simile al Kargiraa,
con fondamentali un po’ più elevate), Ezengileer (caratterizzato da passaggi ritmici veloci fra le
armoniche difoniche), Sigit (simile ad un fischio, in cui la fondamentale e le armoniche basse
sono molto deboli).
In Mongolia la maggior degli stili prende il nome dalla zona di risonanza del canto:
Xamryn Xöömi (Xöömi nasale), Bagalzuuryn Xöömi (Xöömi di gola), Tseedznii Xöömi (Xöömi di
petto), Kevliin Xöömi (Xöömi di ventre) , Xarkiraa Xöömi (corrispondente al Kargiraa Tuva, è
uno Xöömi narrativo con fondamentali molto basse), Isgerex (voce di flauto dentale, stile usato
raramente). Si verifica fra gli stessi cantanti mongoli qualche confusione sulla esatta
denominazione del loro canto (Tran Quang, 1991a). Caratteristica, anche se non usata in
generale, è la presenza in alcuni cantanti mongoli di un vibrato piuttosto marcato (ad esempio, in
Sundui e Ganbold).
Le popolazioni Khakash praticano tre tipi di canto difonico (Kargirar, Kuveder o Kilenge
e Sigirtip), corrispondenti a quelli Tuva (Kargiraa, Ezengileer, Sigit). Anche presso gli abitanti
delle montagne dell’Altai si ritrovano questi tre stili, rispettivamente Karkira, Kiomioi e Sibiski.
Le popolazioni della Bashiria, infine, usano la difonia secondo lo stile Uzlau (simile
all’Ezengileer dei Tuva) per accompagnare i canti epici. Una tradizione di canto popolare epico
in cui si introduce la difonia esiste anche in Uzbekistan e Kazakistan (Levin et al., 1999).
John Levy ha scoperto nel 1967 un cantante del Rajastan che praticava il Canto Difonico
e che se ne serviva per imitare lo scacciapensieri (Tran Quang, 1991a). Si deve comunque dire
che questo è rimasto l’unico esempio di Canto Difonico in territorio indiano. Nel 1983
l’etnomusicologo Dave Dargie ha scoperto un tipo di difonia praticata tradizionalmente presso le
donne delle popolazioni Xhosa dell’Africa del Sud (Dargie, 1985).
Una tradizione completamente diversa è quella dei monaci tibetani delle scuole buddiste
Gyuto e Gyume. Lo scopo del canto in questo caso è di tipo religioso: secondo la loro visione, il
suono è una rappresentazione fedele della realtà vibratoria dell’universo, sintetizzata nel suono
Om (o meglio Aum). Il cosmo, secondo i buddisti tibetani, è un aggregato di energie interagenti,
nessuna delle quali esiste di per sé, che trovano una rappresentazione pittorica come divinità
(pacifiche o irate). Esiste una simbologia che lega l’aspetto visivo (Yantra e Mandala) e l’aspetto
sonoro (Mantra) di tutte le cose. La conoscenza dell’influsso mantrico del suono permette di
agire sul mondo e sugli uomini.
Sembra che sia stato Tzong Khapa (1357-1419), il fondatore del Lamaismo in Tibet, a
introdurre la pratica del Canto Difonico nei monasteri Gyuto. La tradizione dice che aveva
ricevuto questo insegnamento dalla sua divinità protettrice, Maha Bhairava, incarnazione di Avalokiteshvara, il Signore della Compassione. Maha Bhairava è una delle divinità terrifiche
(bhairava), simboleggiata come un bufalo infuriato (Tran Quang, 2000). Il canto dei monaci
Gyuto, da loro paragonato al muggito di un toro, è simile allo stile Tuva Borbannadir con
fondamentali basse. L’altezza della voce può scendere fino al La 55 Hz, una quinta sotto alla
nota più bassa prevista per un cantante basso nella nostra tradizione. L’articolazione della vocale
/o/ e l’arrotondamento delle labbra tende intenzionalmente a rinforzare l’armonico 5° e il 10°. Il
suono difonico che si percepisce è dunque una terza maggiore rispetto alla seconda ottava (4°
armonico) del bordone di base. Il canto è messo in relazione all’elemento fuoco. I monaci della
scuola Gyume esaltano invece la 12° armonica, corrispondente ad una quinta sopra alla terza
ottava (8° armonico) del bordone di base. In questa tradizione il canto simboleggia l’elemento

Il Canto Difonico in Occidente
Il Canto Difonico ha incontrato in Occidente un successo inaspettato. La diffusione è
cominciata in campo musicale con il tentativo delle avanguardie di sfruttamento di tutte le
possibilità espressive della voce e con l’influsso derivato dal contatto con tradizioni culturali
diverse dalla nostra. Il primo in assoluto ad utilizzare una modalità difonica della voce in campo
artistico è stato Karlheinz Stockhausen nell’opera Stimmung (Stockhausen, 1968). Seguito poi
da un folto gruppo di artisti fra cui il gruppo EVTE (Extended Vocal Techniques Ensemble)
dell’Università di California di San Diego nel 1972, Laneri e il gruppo Prima Materia nel 1973
(Laneri, 1981, 2002), Tran Quang Hai nel 1975, Demetrio Stratos nel 1977 (Stratos, 1978,
Ferrero et al., 1980), Meredith Monk nel 1980, David Hykes e l’Harmonic Choir nel 1983
(Hykes, 1983), Joan La Barbara nel 1985, Michael Vetter nel 1985, Christian Bollmann nel
1985, Noah Pikes nel 1985, Michael Reimann nel 1986, Tamia nel 1987, Bodjo Pinek nel 1987,
Josephine Truman nel 1987, Quatuor Nomad nel 1989, Iegor Reznikoff nel 1989, Valentin
Clastrier nel 1990, Rollin Rachele nel 1990 (Rachele, 1996), Thomas Clements nel 1990, Sarah
Hopkins nel 1990, Les Voix Diphoniques nel 1997.
Una menzione particolare deve andare al gruppo EVTE per il lavoro sistematico
compiuto nell’ampliare il vocabolario espressivo e le modalità compositive relative alla voce,
anche nel campo difonico. Il lessico codificato comprendeva un intero repertorio di effetti vocali:
rinforzamento di armoniche, vari tipi di ululato, canto tibetano (anche con effetti difonici),
schiocchi e sfrigolii di differente intensità e altezza, suoni multifonici, ecc. (Kavash, 1980).
La diffusione del Canto Difonico nel mondo occidentale si è caratterizzata per un alone di
misticismo che non era presente nelle culture originali (escludendo, come si è detto, il Buddismo
tibetano). Questo non è sorprendente, dal momento che questp tipo di canto sembra trascendere
la dimensione sonora consueta. Quando poi si riesce personalmente nella “magia” di scomporre
la propria voce in una melodia armonica, si sperimenta una sensazione di euforia. La stranezza
del fenomeno da solo non basterebbe a giustificare un interesse così grande, se non fosse che,
effettivamente, la realizzazione di questa tecnica di canto richiede uno sviluppo delle capacità di
attenzione e percezione tali da facilitare gli stati di concentrazione e meditazione. Non sorprende
neppure, sulla base delle considerazioni fatte, che si cominci ad utilizzare il Canto Difonico in
musicoterapia (da parte, ad esempio, dello stesso Tran Quang Hai, di Dominique Bertrand in
Francia e di Jill Purce in Inghilterra).
Le formazione delle immagini uditive
Ma perché il Canto Difonico si rivela essere una esperienza così strana? La risposta ovvia
è che normalmente noi percepiamo una voce con una unica altezza e un timbro caratteristico.
Come è noto, l’onda di pressione che arriva al timpano dell’orecchio è la risultante
dell’interazione di vari eventi sonori, ognuno dei quali è composto a sua volta da un aggregato di
parziali sinusoidali. Questo flusso sonoro è separato a livello della membrana basilare in
componenti frequenziali con un inviluppo di ampiezza e frequenza determinato. La
scomposizione spettrale è condizionata da tre fenomeni principali:
1 – La sensibilità dell’orecchio che varia notevolmente con la frequenza (curve
isofoniche di Fletcher e Munson, 1933).
2 – Il mascheramento operato dalle componenti in bassa frequenza rispetto a quelle di
frequenza più elevata all’interno di una stessa banda critica (Zwicker, 1957).
3 – I fattori temporali che intervengono in questo processo, per cui l’individuazione delle
componenti frequenziali basse è ritardata rispetto a quelle più acute (Whitfield, 1977).
A questo punto, i dati analitici del flusso sonoro sono organizzati (fusi, integrati) in
separate immagini uditive, secondo fattori psicologici gestaltici (Bregman, 1990). Il processo
avviene raggruppando assieme quelle parziali sonore che hanno un andamento omogeneo di
ampiezza, durata e frequenza. In maniera sostanzialmente simile alla percezione visiva, che
aggrega i quanti luminosi della retina in figure semplici (cerchio, rettangolo, poligono, ecc.),
questo processo di fusione percettiva dei quanti sonori porta a rappresentazioni mentali unitarie
che prendono il nome di voci, strumenti musicali di un certo tipo, rumori, ecc.
Nel caso sonoro, come in quello visivo, la percezione deve lavorare secondo una
dimensione simultanea, che prende in considerazione tutti gli elementi contemporaneamente
presenti sulla scena (uditiva o visiva), e una dimensione sequenziale, che tiene conto delle
variazioni degli elementi nel tempo.
Lo scopo di questa organizzazione percettiva in categorie mentali è vitale per la
sopravvivenza, dal momento che permette di individuare gli eventi (sonori o visivi) e di adottare
una strategia comportamentale adeguata.

La separazione dell’immagine uditiva nel Canto Difonico
Come abbiamo visto, il nostro sistema uditivo è condizionato a percepire una sola
fondamentale di un suono complesso, anche quando questo sia quasi-armonico o inarmonico (si
pensi ad esempio ad una campana) (Plomp, 1967). Normalmente in un suono i meccanismi
percettivi rendono difficoltoso l’ascolto delle componenti frequenziali separate. Nei bambini la
sensibilità uditiva alle singole componenti e le possibilità articolatorie sono più sviluppate che
negli adulti, per i processi di apprendimento che eliminano molte di queste potenzialità
(Jakobson, 1968).
Con la tecnica del Canto Difonico si acquisisce un controllo dell’articolazione del tratto
vocale tale da portare una delle risonanze (in genere la 1° o la 2°) in corrispondenza esatta di una
delle armoniche. A questo punto l’energia di quella componente aumenta in modo considerevole,
anche di una trentina di dB, e può essere udita come un suono puro distinto dalla voce. In effetti,
in questo caso, la parziale in questione non è più mascherata dalle componenti basse ed inoltre,
secondo i principi di fusione detti, non può più essere raggruppata con le altre armoniche, che sono accomunate da un “destino comune”, data l’anomalia del suo andamento. Si verifica
dunque una caso di separazione dell’immagine uditiva unitaria in due suoni distinti.
È necessario ovviamente un periodo di addestramento per riuscire in questo compito.
Nella nostra tradizione musicale esiste qualcosa di paragonabile nella tecnica della cosiddetta
“formante del cantante”, che consiste nell’allargare la faringe e abbassare la laringe, creando un
risuonatore che permette di esaltare un gruppo di parziali frequenziali fra i 2000 e 4000 Hz (Fig.
2-3). I cantanti hanno sviluppato questa capacità probabilmente per sfruttare al meglio la zona di
massima sensibilità dell’orecchio, per cui riescono a far sentire la loro voce al di sopra
dell’orchestra (caratterizzata da un profilo energetico complessivo quasi triangolare più spostato
sulle basse frequenze) (Sundberg, 1987).

Fig. 2 Inviluppo spettrale per il tratto vocale uniforme. Nel caso ideale (tubo senza perdite, lungo
17 cm) le formanti si trovano a multipli dispari dei 500 Hz.

Fig. 3 Inviluppo spettrale per effetto di un restringimento del tubo: le prime 3 formanti si
spostano verso l’acuto, mentre la 4° e la 5° si spostano verso le basse frequenze. Si crea così una
zona di esaltazione delle parziali fra i 2000 e 4000 Hz, tipica della formante del cantante.
Tecnica del Canto Difonico ad una cavità
Questa modalità di produzione del Canto Difonico è la più semplice e consiste nel
muovere semplicemente le labbra come se si pronunciasse la sequenza vocalica da /u/ a /i/
(oppure anche da /o/ ad /a/). La lingua rimane appiattita sul pavimento del cavo. La vibrazione
glottica è normale sia per quanto riguarda le corde vocali che per le false corde. Se il movimento
articolatorio è sufficientemente lento e preciso si avvertono chiaramente emergere gli armonici
più bassi uno dopo l’altro. In effetti si sta agendo solo sull’apertura della bocca, allungando con
la /u/ oppure riducendo con la /i/, la lunghezza complessiva del tratto vocale. L’effetto è quello di
spostare concordemente la posizione delle prime tre risonanze verso il basso (/u/) oppure verso
l’acuto (/i/) (Fig. 4). Come si può vedere dalla Fig. 1, la posizione della 1° formante per questo
tipo di articolazione è limitata fra 250 e 1000 Hz, per cui l’armonico più elevato che si può
percepire può arrivare al 12°, a seconda dell’altezza della fondamentale di partenza. In effetti
questa non è una tecnica che permetta di sentire chiaramente gli armonici molto acuti, per le
perdite di energia sonora dovute alla radiazione dalla bocca spalancata. La percezione
dell’armonico esaltato dalla risonanza migliora, se si crea una antirisonanza che attenui le
armoniche più basse rispetto a quella che si vuole far ascoltare. Questo effetto si ottiene
naturalmente nasalizzando il suono, con la comparsa di una antirisonanza che tuttavia non può
scendere molto sotto ai 400 Hz (Stevens, 1998). La comparsa di questa antirisonanza può portare
anche ad un’altra interpretazione della difonia, come azione della 2° formante (e non della 1°),
dal momento che la 1° potrebbe essere attenuata dall’antirisonanza stessa. In ogni caso i 350-400
Hz costituiscono un limite inferiore per la difonia e spiega perché non ci possa essere una chiara
percezione degli armonici più bassi (Bloothooft et al., 1992). La nasalizzazione ha anche
l’effetto di sopprimere la terza formante, il che può spiegare la debole energia nella zona delle
alte frequenze con questa tecnica (Fant, 1960).
Il rango di frequenza per gli armonici creati con questa tecnica varia dunque fra 350 e 1000 Hz e
la quantità di note difoniche possibili dipende dall’altezza della fondamentale. Ad esempio,
partendo da una altezza di un Fa+ 90 Hz, le armoniche percepibili che può creare Tran Quang
Hai vanno dalla 4° (Fa+ 360 Hz) alla 12° (Do#- 1080 Hz). La scala (trasposta in Do) a
disposizione del cantante è dunque Do, Mi-, Sol, La#-, Do, Re, Mi-, Fa#-, Sol. Se invece
l’altezza della fondamentale passa all’ottava Fa+ 180 Hz, le armoniche a disposizione si
riducono alla 3°, 4°, 5°, e 6°, dando una scala con sole 4 note utilizzabili nella melodia (Sol, Do,
Mi-, Sol). Ne segue che la voce femminile è penalizzata per quanto riguarda il Canto Difonico.

Tecnica del Canto Difonico a due cavità
La “ricetta” data da Tran Quang Hai per questa tecnica è la seguente:
1 – Cantare con la voce di gola (qualcosa come /ang/).
2 – Pronunciare la lettera /l/ o la sequenza /li/. Non appena la lingua tocca il centro della volta del
palato, mantenere la posizione.
3 – Pronunciare la vocale /u/, continuando a tenere la lingua incollata contro il punto detto fra il
palato duro e il palato molle.
4 – Contrarre i muscoli del collo e dell’addome, come se si cercasse di sollevare un oggetto
molto pesante.
5 – Conferire al suono un timbro molto nasalizzato, amplificando le fosse nasali. Fig. 4 Articolazione e posizione delle prime tre formanti per una variazione della sezione
trasversale del tratto vocale. Un restringimento alle labbra sposta contemporaneamente le tre
formanti verso il basso, scurendo il timbro sonoro come nelle vocali /u/ e /o/. Il restringimento
alla glottide produce l’effetto contrario, portando le formanti e cioè l’energia verso le alte
frequenze e rendendo il suono più brillante. (adattamento da Stevens, 1998)

6 – Pronunciare la sequenza delle vocali /u/ e /i/ (oppure anche /o/ e /a/) legate fra di loro, ma
alternate parecchie volte l’una con l’altra. Si ottengono così il bordone e le armoniche in
sequenza ascendente o discendente, secondo la volontà del cantante.
7 – Si varia la posizione delle labbra o quella della lingua per modulare la melodia delle
armoniche. Una concentrazione muscolare forte permette di far emergere la difonia con più

Fig.5 Tecnica a 2 cavità: la punta della lingua si muove lungo il palato, dividendo il tratto vocale
in 2 risuonatori.

Con questa tecnica, si divide il tratto vocale in due risuonatori distinti, ognuno dei quali
accordato sulla propria lunghezza d’onda: come si vede dalla Fig. 1 e 4, lo spostamento delle
formanti non è più concorde, ma dipende dal punto in cui la lingua si posiziona. Se si suppone ad
esempio che la strozzatura sia ad un terzo della lunghezza complessiva (più o meno 6 cm), si
ottiene uno spostamento della 1° formante verso il basso (sempre relativamente alla posizione
ideale di un tubo ideale uniforme, 500 Hz, vedi Fig. 2), mentre la 2° formante si sposta molto
verso l’acuto. Questo è una situazione che si verifica in una /i/, ad esempio. In questo caso,
rispetto alla tecnica con una cavità, l’armonico difonico è esaltato dalla 2° formante e dunque il
rango di variazione potrà essere molto più esteso che nel caso precedente (Fig. 1). Teoricamente
(ma lo si verifica anche sperimentalmente), l’armonico udibile può arrivare ai 2800 Hz, per cui
l’armonico più elevato che si può percepire può arrivare al 18°-20°, a seconda dell’altezza della
fondamentale di partenza. Con questa tecnica si evita il problema dell’irradiazione dell’energia
sonora dalla bocca, per cui non c’è la medesima necessità di nasalizzare il suono vocale, se non
per attenuare ulteriormente le parziali basse e migliorare la percezione di quelle elevate. Rimane
comunque l’esigenza di disporre di componenti sonore (soprattutto quelle più elevate in
frequenza) con energia sufficiente per essere udibili distintamente. Questo spiega la necessità
delle contrazioni muscolari appena descritte. La laringe produce un suono pressato, con la
ipercontrazione delle corde vocali e delle false corde (che arrivano a coprire le corde vere, anche
per un avvicinamento delle aritenoidi al piede dell’epiglottide) (Fig. 15).
La selezione dell’armonico può avvenire in tre modi distinti: 1 – Si può spostare la punta della lingua avanti o indietro lungo il palato (come avviene nello
stile Khomei), senza rigonfiarla. Lo spostamento verso i denti permette di selezionare le
armoniche più acute e lo spostamento verso il velo le armoniche più gravi (Fig. 5).
2 – Si può tener fissa la posizione della punta della lingua dietro i denti e muovere il corpo e la
base della lingua, gonfiandola verso il velo palatino o abbassandola fra i denti (stile Sigit).
3 – Una terza possibilità prevede di muovere la radice della lingua a livello della gola piuttosto
che lungo il palato. Si muove la base della lingua in avanti fino a far comparire le vallecule
glosso-epiglottiche (spazi fra la radice della lingua e l’epiglottide), facendo emergere gli
armonici medio-alti. Per gli armonici più alti, l’epiglottide oscilla in avanti chiudendo le
vallecule (Levin et al., 1999).
In ogni caso leggeri movimenti delle labbra permettono di aggiustare in maniera più
precisa la posizione della formante sull’armonico voluto.
Tran Quang Hai ha scoperto anche un altro metodo per produrre scale di armonici, che
consiste nel tener la lingua fissa pressata con i molari superiori e di articolare ciclicamente il
solito passaggio vocalico /u/ e /i/. Gli armonici prodotti sono molto acuti e coprono un rango che
può andare da 2000 a 3500 Hz. Questo metodo ha un interesse puramente dimostrativo delle
possibilità di difonia, visto che non permette la selezione della nota voluta (Tran Quang, 1991a).
Fig. 6 Nel canto Kargiraa (sinistra) le aritenoidi entrano in vibrazione, a differenza del canto
tibetano (destra).

Stile Kargiraa
In questo stile di canto le fondamentali sono in un registro estremamente basso (fino al
La 55 Hz, ma anche sotto). Il suono prodotto è molto intenso e ricco di componenti armoniche
(Fig. 7). Il canto utilizza la 6°, 7°, 8°, 9°, 10° e 12° parziale, corrispondenti a Sol4 392 Hz, La#4-
457 Hz, Do5 523 Hz, Re5 588 Hz, Mi5- 654 Hz, Sol5 784 Hz, quando la fondamentale sia un Do
65.4 Hz. La selezione dell’armonico è fatta mediante l’articolazione di una particolare vocale
(/u/, /o/, //, /a/, ecc.), che il cantante ha imparato ad associare con la nota voluta. In questo canto
possono entrare in vibrazione anche le strutture sopraglottiche (le cartilagini aritenoidi, le false
corde vocali, le pliche ariepiglottiche che connettono le aritenoidi all’epiglottide, e il piede
dell’epiglottide) (Levin et al., 1999), con una fondamentale che è una ottava sotto il registro della
voce normale, ma che può arrivare ad una ottava ed una quinta sotto al normale (Fuks et al.,
1998). Nel caso degli esempi di Kargiraa cantati daTran Quang Hai, abbiamo riscontrato con la fibroendoscopia che le aritenoidi entrano in vibrazione, pressate tra loro e contro il piede
dell’epiglottide, nascondendo completamente le corde vocali(Fig. 6). L’onda mucosa della
“nuova glottide” viene prodotta nella fessura tra le due aritenoidi (Fig. 6). Una situazione
analoga si viene a realizzare negli operati di laringectomia sub-totale, in cui vengono asportate le
corde vocali e parte dell’epiglottide, lasciando intatte solo le aritenoidi. In effetti il timbro della
voce nel Kargiraa ricorda quello dei laringectomizzati.

Fig. 7 Tuva: Vasili Chazir canta “Artii-sayir” nello stile Kargiraa (CD Smithsonian/Folways 18)
La fondamentale è un Si1 61.2 Hz. Gli armonici difonici sono 6° (Fa#4- 367 HZ), 8° (Si4 490
Hz), 9° (Do#5 550 Hz), 10° (Re#5- 612 Hz) e 12° (Fa#5- 734 Hz). Chiaramente visibili fra 950 e
1600 Hz gli armonici in ottava con quelli difonici. Attorno ai 2600-2700 Hz si nota una ulteriore
zona formantica che amplifica la 43° e 44° armonica

Ci sono varianti di Kargiraa nella tradizione Tuva: il Kargiraa della Montagna (Dag
Kargiraa), praticato sulle montagne producendo un eco e cantando con esso, e il Kargiraa della
Steppa (Xovu Kargiraa), usato quando si cavalca con il vento che entra nell’angolo della bocca e
amplifica gli armonici. Il Kargiraa della Montagna utilizza il registro più grave e aggiunge la
nasalizzazione del suono. Si caratterizza per una risonanza di petto e una tensione sulla gola più
moderata. il Kargiraa della Steppa si differenzia per le fondamentali più elevate, una contrazione
maggiore della gola, e una risonanza di petto minima. Un terzo tipo di Kargiraa è quello detto
del “ventaglio” (Chelbig Kargiraa), che prende in nome dall’uso di un ventaglio usato per
produrre un flusso d’aria davanti alla bocca e generare vari effetti di Kargiraa.
Si deve distinguere il Kargiraa dei Tuva o dei Mongoli dal canto dei monaci tibetani, in
cui la frequenza fondamentale bassa (circa 60 Hz) è invece ottenuta con il massimo rilassamento
o allentamento possibile delle corde vocali, e in cui non si verifica la vibrazione delle strutture
sopraglottiche, che risultano anzi contratte (Fig. 6). Il canto tibetano può invece rientrare nella
categoria stilistica del Borbannadir con fondamentali basse. Una ulteriore distinzione va fatta con l’effetto di friggio o crepitio (vocal fry o creaky
voice), caratterizzato da un timbro metallico, che si può ottenere con pulsazioni glottiche di varia
frequenza (anche molto bassa) e che però non presenta difonia (vedere un repertorio completo in
Kavash, 1980).

Stile Borbannadir
Questo stile è caratterizzato da fondamentali nel registro basso o baritonale. Si distingue
dal Kargiraa per fondamentali un po’ più elevate (Fig. 8), per la risonanza più nasale, e per una
pulsazione ritmica, con cui i cantanti imitano il mormorio dell’acqua nei ruscelli (Fig. 9), il
cinguettio degli uccelli, ecc. Il termine Borbannadir significa in effetti “rotolare” e indica tanto
l’effetto di trillo delle armoniche, come il suoni più grave nei testi antichi. Il cantante riesce a
creare un effetto di trifonia fra la fondamentale, un primo livello di armoniche a quinte parallele
(rinforzando il 3° armonico) e un secondo livello con il tremolo delle armoniche superiori (Fig.
9). Per quanto riguarda il suono glottico, non c’è l’intervento delle strutture sopra-laringee.
Proprio per la parentela con il Kargiraa, il cantante può passare da uno stile all’altro nello stesso
brano musicale.

Fig. 8 – Tuva, Stile Borbannadir: la fondamentale è un Fa#2 92 Hz molto attenuato. La
pulsazione di circa 6 Hz è evidente soprattutto sulla 8°,9° e 11° armonica

Stile Khomei
Khomei (che significa gola o faringe) è il termine usato per indicare il Canto Difonico in
generale, ma anche una modalità distinta dalle altre. È considerato lo stile più antico da molti
cantanti Tuva ed è quello che si è imposto per la sua facilità e dolcezza tecnica in tutto
l’Occidente. Il canto Khomei è caratterizzato da una vibrazione glottica normale e rilassata, senza
ipercontrazione delle aritenoidi (come ad esempio nello stile Sigit, vedi Fig. 11), e dal
rilassamento dei muscoli addominali. Alcuni cantanti utilizzano anche abbellimenti come il
Fig. 9 – Tuva: Anatoli Kuular – stile Borbannadir con fondamentale acuta (Mi3+ 169 Hz). Si
tratta di una trifonia, data dalla fondamentale, il 3° armonico molto forte (Si4+ 507 Hz) in
intervallo di 5° con il Mi3) e il tremolo evidente soprattutto sulla 6° armonica (Si5+ 1014 Hz)

Fig. 10 – Tuva: stile Khomei. La fondamentale è un Fa#3+ 189 Hz piuttosto debole. Gli armonici
usati qui sono 6°, 7°, 8°, 9°, 10° e 12°, corrispondenti a Do#6+ 1134, Mi6 1323 Hz, Fa#6+ 1512
Hz, Sol#6+ 1701 Hz, La#6+ 1890 Hz, Do#7+ 2268 Hz.
Fig. 11 Le aritenoidi nel canto difonico con tecnica Khomei sono in una posizione più arretrata
rispetto allo stile Sigit (fig. Xxx). Il piano glottico è visibile e mostra le corde vocali nella fase di
chiusura del ciclo vibratorio.

Stile Ezengileer
La parola Ezengileer significa “staffa” e vuole indicare che questo stile è caratterizzato da
variazioni ritmiche simili al suono che le staffe metalliche producono sotto l’appoggio periodico
dei piedi quando si sta galoppando (Fig. 12). L’Ezengileer è una variante dello stile Sigit,
caratterizzato da oscillazioni ritmiche veloci fra le armoniche difoniche. C’è una grande varietà
di timbro da un cantante all’altro, uniti da questo elemento comune che è il ritmo “del cavallo”.
Attualmente è raro sentirlo eseguire ed è giudicato uno stile piuttosto difficile
Fig. 12 – Tuva, Stile Ezengileer
La fondamentale è un La#2 117 Hz Fig. 13 Tuva: stile Sigit.La fondamentale è un Mi3+ 167 Hz di intensità molto debole. Gli
armonici usati qui sono 8°, 9°, 10° e 12°, corrispondenti a Mi6+ 1336 Hz, Fa#6+ 1503 Hz,
Sol#6+ 1670 Hz, Si6+ 2004 Hz. Si nota la scansione ritmica dovuta al passaggio veloce verticale
fra le armoniche, con una periodicità variabile di circa 900 ms. È presente una seconda zona di
risonanza in alta frequenza attorno ai 3000-3200 Hz

Fig. 14 Mongolia: Ganbold canta un Kevliin Xöömi (Xöömi di ventre, simile allo stile Sigit Tuva)
La fondamentale è un Sol# 208 Hz piuttosto debole. Gli armonici usati qui sono 6°, 7°, 8°, 9°,
10° e 12°, corrispondenti a Re#6 1248 Hz, Fa#6- 1456 Hz, Sol#6 1664 Hz, La#6+ 1872 Hz,
Do7- 2080 Hz, Re#7 2496 Hz. Presenza di un vibrato molto ampio con una modulazione di
frequenza di circa 6 Hz
Stile Sigit
Sigit significa “fischio” ed in effetti questo stile è caratterizzato da una difonia, in cui la
fondamentale e le armoniche basse sono molto indebolite e poco percepibili. L’armonico esaltato
dalla risonanza sovrasta il bordone con un suono flautato (Fig. 13-14). In genere il brano
comincia con un testo cantato, senza armonici percepibili. Alla fine della frase, il cantante intona
il bordone su una fondamentale media (da Mi3 165 Hz a La3 220 Hz), su cui costruisce la linea
melodica delle armoniche. In genere gli intervalli cantati corrispondono alla 9°, 10°, 12°
armonica, ma si ascoltano anche melodie sulla 8°, 9°, 10°, 12° e 13° parziale.
Questo stile richiede una pressione notevole sul diaframma e una ipercontrazione della
glottide. Il posizionamento della lingua è particolarmente critico dovendo selezionare armonici in
alta frequenza (fino a 2800 Hz circa) e dunque molto vicini fra di loro. La fibroendoscopia sulla
laringe di Tran ha mostrato una posizione delle aritenoidi molto avanzato a coprire quasi le corde
vocali (fig. 15). L’effetto della costrizione del tratto vocale alla glottide è stato illustrato in fig. 3:
l’energia spettrale è spostata sulle alte frequenze, attenuando la fondamentale e le armoniche

Fig. 15 Stile Sigit. Le aritenoidi si spostano marcatamente in avanti fino a nascondere il piano
glottico. L’energia spettrale si distribuisce sulle alte frequenze attenuando la fondamentale e le
componenti basse.

Aksenov, A.N. (1964). “Tuvinskaja narodnaja muzyka”, Mosca.
Aksenov, A.N. (1967). “Die stile der Tuvinischen zweistimmigen sologesanges”, Sowjetische
Volkslied- und Volksmusikforschung , pp. 293-308, Berlin.
Aksenov, A.N. (1973). “Tuvin folk music”, Journal of the Society for Asian Music, Vol. 4, n. 2,
pp. 7-18, New York.
Bregman, A. (1990). Auditory scene analysis: the perceptual organization of sound, MIT Press,
Dargie, D. (1985). “Some Recent Discoveries and Recordings in Xhosa Music”, 5th Symposium
on Ethnomusicology, University of Cape Town, International Library of African
Music (ed), pp. 29-35, Grahamtown. Desjacques, A. (1985). “Une considération phonétique sur quelques techniques vocales
diphoniques mongoles”, Bulletin du Centre d’Etudes de Musique Orientale, 31, pp. 46-
55, Paris.
Dmitriev, L. – Chernov, B. – Maslow, V. (1983). “Functioning of the voice mechanism in double
voice Touvinian singing”, Folia Phoniatrica, Vol. 35, pp. 193-197.
Fant, G. (1960). Acoustic theory of speech production, Mouton, The Hague.
Ferrero F. – Croatto L. – Accordi M. (1980). “Descrizione elettroacustica di alcuni tipi di
vocalizzo di Demetrio Stratos”, Rivista Italiana di Acustica, Vol. IV, n. 3, pp. 229-258.
Ferrero, F., Ricci Maccarini, A., Tisato, G. (1991). “I suoni multifonici nella voce umana”, Proc.
XIX Convegno AIA, Napoli, pp. 415-422.
Fletcher, H., Munson, W.A. (1933). “Loudness, Its Definition, Measurement and Calculation”,
Vol. 5, 2, pp. 82-108.
Fuks L., Hammarberg B.,Sundberg J. (1998): “A self-sustained vocal-ventricular phonation
mode: acoustical, aerodynamic and glottographic evidences”, KTH TMH-QPSR 3/1998,
pp. 49-59, Stockholm
Garcia, M. (1847). Traitè complet de l’art du chant, Paris.
Gunji, S. (1980): “An acoustical consideration of Xöömij”, Musical Voices of Asia, pp. 135-141,
The Japan Foundation (ed), Heibonsha Ltd, Tokyo.
Hamayon, R. 1980: “Mongol Music”, New Grove’s Dictionary of Music and Musicians 12, pp.
482-485, Stanley Sadie (ed), MacMillan Publishers, Londres.
Harvilahti, L. (1983). “A Two Voiced Song With No Word”, Suomalais-ugrilaisen seuran
aikakauskirja 78, pp. 43-56, Helsinki.
Kavasch D. (1980). “An introduction to extended vocal techniques”, Report of CME, Univ. of
California, San Diego, Vol. 1, n. 2, pp. 1-20, con cassetta di esempi sonori.
Jakobson, R. (1968). Child language, aphasia and phonological universe, La Hayes, Mouton.
Laneri, R. (1983). “Vocal techniques of overtone production”, NPCA Quarterly Journal, Vol XII,
n. 2-3, pp. 26-30.
Laneri, R. (2002). La voce dell’arcobaleno, Ed. Il Punto d’Incontro, Vicenza.
Leotar, F. (1998). “Etudes sur la musique Touva”, maîtrise de l’Université de Nanterre – Paris X,
128 pages, 2 cassettes.
Leothaud, G. (1989). “Considérations acoustiques et musicales sur le chant diphonique”, dossier
n° 1, Le chant diphonique, pp. 17-43, Institut de la Voix, Limoges.
Levin, Th. – Edgerton, M. (1999). “The Throat Singers of Tuva”,
Pailler, J.P. (1989). “Examen video du larynx et de la cavité buccale de Monsieur Trân Quang
Hai”, dossier n°1, Le Chant Diphonique, pp. 11-13, Institut de la Voix, Limoges.
Pegg, C. (1992). “Mongolian conceptualizations of Overtone Singing (Xöömii)”, The British
Journal of Ethnomusicology (1), pp. 31-53, Londres.
Plomp, R. (1967). “Pitch of complex tones”, JASA, Vol 41 (6), pp. 1526-1533.
Rachele, R. (1996). “Overtone Singing Study Guide”, Cryptic Voices Productions (ed), pp. 1-
127, Amsterdam .
Sauvage, J.P. (1989). “ Observation clinique de Monsieur Trân Quang Hai”, dossier n° 1, Le
Chant diphonique, pp. 3-10, Institut de la Voix, Limoges.
Smith, H., Stevens, K.N., Tomlinson, R.S. (1967). “On an unusual mode of singing of certain
Tibetan Lamas”, JASA. 41 (5), pp. 1262-4, USA.
Stevens K. (1998), Acoustic Phonetics, MIT Press, Cambridge. Sundberg, J. (1987). The science of the singing voice, Northern Illinois University Press, De
Kalb, Illinois.
Tisato, G. (1989a), “Analisi e sintesi del Canto Difonico”, Proc. VII Colloquio di Informatica
Musicale (CIM), Cagliari, pp. 33-51, 1989.
Tisato, G. (1989b), “Il canto degli armonici”, in Culture Musicali, Quaderni di Etnomusicologia,
Ed. La Casa Usher, Vol. 15-16, pp. 44-68.
Tisato, G. – Ricci Maccarini, A.R. (1991). “Analysis and synthesis of Diphonic Singing”,
Bulletin d’Audiophonologie, Vol. 7, n. 5&6, pp. 619-648, Besançon.
Tongeren, M. Van (1994). “Xöömij in Tuva: new developments, new dimensions”, Thèse de
maîtrise, Ethnomusicologisch Centrum “Jaap Kunst”, Universiteit van Amsterdam.
Tongeren, M. Van (1995). “A Tuvan perspective on Throat Singing”, Oideion, The Performing
Arts Worldwide, 2, pp. 293-312, Université de Leiden.
Tran Quang Hai (1975). “Technique de la voix chantée mongole: Xöömij”, Bulletin du CEMO,
n. 14 & 15, pp. 32-36, Paris.
Tran Quang Hai – Guilou, D. (1980). “Original research and acoustical analysis in connection
with the xöömij style of biphonic singing”, Musical Voices of Asia, pp. 162-173, The
Japan Foundation (ed), Heibonsha Ltd, Tokyo.
Tran Quang Hai (1989). “Réalisation du chant diphonique”, dossier n°1, Le Chant diphonique,
pp. 15-16, Institut de la Voix, Limoges.
Tran Quang Hai – Zemp, H. (1991a). “Recherches expérimentales sur le chant diphonique”,
Cahiers de Musiques traditionnelles, Vol. 4, pp. 27-68, Genève.
Tran Quang Hai (1991b). “New experimental about the Overtone Singing style”, Bulletin
d’Audiophonologie, Vol. 7, n. 5&6, pp. 607-618, Besançon.
Tran Quang Hai (1995). “ Le chant diphonique: description, historique, styles, aspect acoustique
et spectral”, EM, Annuario degli Archivi di Etnomusicologia dell’Accademia
Nazionale di Santa Cecilia, n. 2, pp. 123-150, Roma.
Tran Quang Hai (1997a). “Recherches introspectives sur le chant diphonique et leurs
applications”, Penser La Voix, (ed) La Licorne, pp. 195-210, Poitiers.
Tran Quang Hai (1997b). “ Overtones in Central Asia and in South Africa (Xhosa Vocal Styles),
Proceedings of the First South African Music and Dance Conference and 15th
Symposium on Ethnomusicology, pp. 422-432, Univ. de Cape Town, Afrique du Sud.
Tran Quang Hai (1998). “ Survey of overtone singing style”, Die Ausdruckswelt der Stimme, 1-
Stuttgarter Stimmtage/ Horst Gunderman, (ed) Hüthig, pp. 77-83, Allemagne.
Tran Quang Hai (1999). “Overtones used in Tibetan Buddhist Chanting and in Tuvin
Shamanism”, Ritual and Music, Lithuanian Academy of Music, Department of
Ethnomusicology, pp. 129-136, Vilnius.
Tran Quang Hai (2000). “Musique Touva”, http://www.baotram.ovh.org\tuva.html
Vlachou, E. (1985). “Recherches vocales contemporaines: chant diphonique”, Thèse de maîtrise,
Université de Paris VIII-Saint Denis, direction de D. Charles, 90 pages, Paris.
Walcott, R. (1974). “The Chöömij of Mongolia – A spectral analysis of overtone singing”,
Selected Reports in Ethnomusicology 2 (1): 55-59, UCLA, Los Angeles.
Whitfield, I. C. (1978). “The neural code”. In Handbook of perception, (ed) Carterette &
Friedman, Academic, Vol IV, 5, New York.
Zue, V. (1989). Acoustic theory of speech production, preliminary draft, Dep. Electrical Eng. &
Computer Science, MIT, Cambridge.
Zwicker, E., Flottorp, G., Stevens, S. S. (1957). “Critical bandwidth in loudness summation”.
JASA, Vol. 29 (5), pp. 548-557. Discografia
“Tuva: Voices from the center of Asia”, Smithsonian Folkways CD SF 40017, Washington,
USA, 1990.
“Tuva: Voices from the land of the eagles”, Pan Records, PAN 2005 CD, Leiden Hollande,
“Tuva- Echoes from the spirit world”, Pan Records, PAN 2013CD, Leiden, Hollande, 1992.
“Tuvinian singers and musicians – Ch’oomej: Throat singing from the center of Asia”, World
Network, vol.21, USA, 1993.
“Huun Huur Tu/ Old songs and tunes of Tuva”, Shanachie 64050, USA, 1993.
“Huun Huur Tu / The orphan’s lament”, Shanachie 64058, USA, 1994.
“Shu-De, Voices from the distant steppe”, Womad production for RealWorld, CD RW 41, Pays
Bas, 1994.
“Musiques traditionnelles d’Asie centrale/ Chants harmoniques Touvas”, Silex Y 225222, Paris,
France, 1995.
“Shu-de / Kongurei/ Voices from Tuva”, New Tone NT6745, Robi Droli, San Germano, Italia,
“Chirgilchin: The wolf and the kid”, Shanachie Records, USA, 1996.
“Deep in the Heart of Tuva”, Ellipsis Arts, USA, 1996.
“Huun Huur Tu – If I’d been born an eagle”, Shanachie Records, USA, 1997.
“Mongolie: Musique et Chants de tradition populaire”, GREM G 7511, Paris, France, 1986.
“Mongolie : Musique vocale et instrumentale”, Maison des Cultures du Monde, W 260009,
collection INEDIT, Paris, France, 1989.
“Mongolian Music”, Hungaroton, HCD 18013-14, coll. UNESCO, Budapest, Hongrie, 1990.
“White Moon, traditional and popular music from Mongolia”, Pan Records, PAN 2010CD,
Leiden, Hollande, 1992.
“Folk Music from Mongolia / Karakorum”, Hamburgisches Museum für Völkerkunde,
Hambourg, Allemagne, 1993.
“Vocal & instrumental of Mongolia”, Topic, World Series TSCD909, Londres, Grande Bretagne,
“Jargalant Altai/ Xöömii and other vocal and instrumental music from Mongolia”, Pan Records
PAN 2050CD, Ethnic Series, Leiden, Hollande, 1996
“Uzlyau : Guttural singing of the Peoples of the Sayan, Altai and Ural Mountains”, Pan Records
PAN 2019CD, Leiden, Hollande, 1993.
“Chant épiques et diphoniques: Asie centrale, Sibérie, vol 1”, Maison des Cultures du Monde, W
260067, Paris, France, 1996.
“The Gyuto Monks: Tibetan Tantric Choir”, Windham Hill Records WD-2001, Stanford,
Californie, USA, 1987.
“The Gyuto Monks: Freedom chants from the roof of the world”, Rykodisc RCD 20113, Salem,
Maryland, USA, 1989.
“Tibet: The heart of Dharma/ Buddha’s teachings and the music they inspired”, Ellipsis Arts
4050, New York, USA, 1996.
“Le chant des femmes Xhosa”, The Ngqoko Women’s Ensemble, VDE, CD 879, 1996.