声音是由物体的振动产生的。从听觉上来说,振动频率越快,音调就越高;振动频率越慢,音调就越低。我们用$F=a\ \mathrm{Hz}$表示振动频率,其中$a \in (0, +\infty)$。
那么既然$a$可以有无限个取值,是不是代表,我们可以用的音也是无穷?显然不是。对于人类来说,人耳生理上的限制决定我们并不能准确分辨所有的声音。比如,某两个音可能频率不同,但听起来一样;或者某个音频率太高或太低,根本听不见。
首先我们探讨第一个问题,即人耳能听到的频率处于什么范围。根据研究,大部分人能够听到的频率介于$20\ \mathrm{Hz}$到$20000\ \mathrm{Hz}$之间。所以说,如果你想演奏人类能够欣赏的音乐,首先应当使得$a \in [20,20000]$。
现在来探讨第二个问题:频率不同,是不是我们的耳朵就一定能准确感知这种不同?
你可以使用一些设备播放一个特定频率的正弦波。首先将频率调到$440\ \mathrm{Hz}$,聆听一小会。然后调到$441\ \mathrm{Hz}$,你能分辨这两个音之间的不同吗?
如此不断将频率调大,直到你可以明显感知到“音变高了”,观察频率数字,看看和$440\ \mathrm{Hz}$相差多少。对于一些听觉比较敏感的人,可能在调到$441\ \mathrm{Hz}$时马上就能感知到变化。但是对于一些听觉不那么敏感的人,可能要调到$443\ \mathrm{Hz}$乃至更高。这个简单的实验说明人耳对频率的分辨力是有一定限度的。所以,我们可用的频率$a$又缩小了,它的取值变成了一个离散集。
让我们继续这个实验,依然从$440\ \mathrm{Hz}$开始,逐步上调频率。当然,这次你可以调得快一点,甚至直接按住按键,让频率连续快速增长。当一串滑音进入你的耳朵后,敏锐的听觉会捕捉到有一个“回归”的音。这个音听起来跟$440\ \mathrm{Hz}$非常相似,但是明显更高。这时候找到这个音的频率,发现是$880\ \mathrm{Hz}$。
$880\ \mathrm{Hz}$可以有两种含义:一种是$440\ \mathrm{Hz}+440\ \mathrm{Hz}$,另一种是$440\ \mathrm{Hz} \times 2$。这时候我们会产生一个想法:如果我想再找到一个“回归”的音,应该将频率加上$440\ \mathrm{Hz}$还是乘以$2$呢?
依然可以用实验来验证。将频率调到$880\ \mathrm{Hz} + 440\ \mathrm{Hz} = 1320\ \mathrm{Hz}$,和$880\ \mathrm{Hz}$比较,发现两个音好像没什么关系。再将频率调到$880\ \mathrm{Hz} \times 2 = 1760\ \mathrm{Hz}$,马上可以分辨出这个音又是一个“回归”的音。
所以我们发现一个定律:频率$2^ka$在听觉上是回归的,其中$k \in \mathbb{Z}$。
这样一来,我们能用的频率虽然没有发生什么变化,但是由于$\forall a$都有$2^ka$,所以真正可以称得上听起来“不重复”的频率,实际上只有$[2^ka, 2^{k+1}a]$这个区间。不管你选定怎样的$a$,对于任意一个$k$的取值所形成的各个区间,音都是“重复”的,只是音调的高低有所变化。
所以我们的发挥空间一下子就变得非常有限。
这时候你可能会说:没关系,反正人耳可以分辨$2\ \mathrm{Hz}$的频率变化。$[2^ka, 2^{k+1}a]$之中不是还有很多个$2\ \mathrm{Hz}$吗?所以可用的频率还是非常多的。
确实,从数学上看,
$$ m = \frac{2^{k+1}a-2^ka}{2\ \mathrm{Hz}} $$
随着$k$和$a$的增长,$m$会越来越大,也就是说我们可用的频率会越来越多。可惜很不幸的是,频率越高或越低,人耳的分辨力越差。而且即便是$2\ \mathrm{Hz}$的差异,也不足以用来形成音乐。因为音乐的要求是人能够快速分辨不同的音高,这就要求不同音高间差异应当足够明显。而且,如果这个区间内不同的音高太多,会增加大脑处理的负担。我们的大脑天生倾向于处理具有相似性的事物,包括音乐。所以我们采用的音高应该尽可能少,但又足以充分利用这个区间内的可用频率。
我们使用的音,应该在各个区间内数量相等且“回归”。也就是说,第二个区间的第$n$个音,应当等于第一个区间第$n$音的$2$倍,以此类推。因此就不能采用$m$的算法,因为那样会导致不同的区间内音的数量不一样。
那么每个区间内应该有多少个音最合适?
经过世界各国在漫长历史过程中的实践,最终在当下,绝大多数音乐家都认为,每个区间内有$12$个音,最符合人类听觉和美感方面的要求。
也就是说,假设以$a$作为第一个音,那么$2^{\frac{1}{12}}a$就是第二个音,$2^{\frac{2}{12}}a$就是第三个音……这样一来,对于任意$a$,在经过$12$个音后,都会“回归”到$2a$。
比如,假设第一个音是$2^{\frac{2}{12}}a$,经过$12$个音,也就是
$$ 2^{\frac{2}{12}}a \cdot 2^{\frac{1}{12} \cdot 12} = 2^\frac{14}{12}a = 2 \cdot 2^{\frac{2}{12}}a $$
这称为“十二平均律”。
你可能会产生疑问:为什么要把$2^ka$中的$k$分成$12$份,而不是把$2^{k+1}a - 2^ka$本身分成$12$份,也就是为什么不使用等差形式:
$$\frac{2^{k+1}a - 2^ka}{12}$$
这个问题又是另一个有趣的话题,可能还需要一篇文章来解释。