音乐哲学的数学原理

声音是由物体的振动产生的。从听觉上来说，振动频率越快，音调就越高；振动频率越慢，音调就越低。我们用$F=a\ \mathrm{Hz}$表示振动频率，其中$a \in (0, +\infty)$。

那么既然$a$可以有无限个取值，是不是代表，我们可以用的音也是无穷？显然不是。对于人类来说，人耳生理上的限制决定我们并不能准确分辨所有的声音。比如，某两个音可能频率不同，但听起来一样；或者某个音频率太高或太低，根本听不见。

首先我们探讨第一个问题，即人耳能听到的频率处于什么范围。根据研究，大部分人能够听到的频率介于$20\ \mathrm{Hz}$到$20000\ \mathrm{Hz}$之间。所以说，如果你想演奏人类能够欣赏的音乐，首先应当使得$a \in [20,20000]$。

现在来探讨第二个问题：频率不同，是不是我们的耳朵就一定能准确感知这种不同？

你可以使用一些设备播放一个特定频率的正弦波。首先将频率调到$440\ \mathrm{Hz}$，聆听一小会。然后调到$441\ \mathrm{Hz}$，你能分辨这两个音之间的不同吗？

如此不断将频率调大，直到你可以明显感知到“音变高了”，观察频率数字，看看和$440\ \mathrm{Hz}$相差多少。对于一些听觉比较敏感的人，可能在调到$441\ \mathrm{Hz}$时马上就能感知到变化。但是对于一些听觉不那么敏感的人，可能要调到$443\ \mathrm{Hz}$乃至更高。这个简单的实验说明人耳对频率的分辨力是有一定限度的。所以，我们可用的频率$a$又缩小了，它的取值变成了一个离散集。

让我们继续这个实验，依然从$440\ \mathrm{Hz}$开始，逐步上调频率。当然，这次你可以调得快一点，甚至直接按住按键，让频率连续快速增长。当一串滑音进入你的耳朵后，敏锐的听觉会捕捉到有一个“回归”的音。这个音听起来跟$440\ \mathrm{Hz}$非常相似，但是明显更高。这时候找到这个音的频率，发现是$880\ \mathrm{Hz}$。

$880\ \mathrm{Hz}$可以有两种含义：一种是$440\ \mathrm{Hz}+440\ \mathrm{Hz}$，另一种是$440\ \mathrm{Hz} \times 2$。这时候我们会产生一个想法：如果我想再找到一个“回归”的音，应该将频率加上$440\ \mathrm{Hz}$还是乘以$2$呢？

依然可以用实验来验证。将频率调到$880\ \mathrm{Hz} + 440\ \mathrm{Hz} = 1320\ \mathrm{Hz}$，和$880\ \mathrm{Hz}$比较，发现两个音好像没什么关系。再将频率调到$880\ \mathrm{Hz} \times 2 = 1760\ \mathrm{Hz}$，马上可以分辨出这个音又是一个“回归”的音。

所以我们发现一个定律：频率$2^ka$在听觉上是回归的，其中$k \in \mathbb{Z}$。

这样一来，我们能用的频率虽然没有发生什么变化，但是由于$\forall a$都有$2^ka$，所以真正可以称得上听起来“不重复”的频率，实际上只有$[2^ka, 2^{k+1}a]$这个区间。不管你选定怎样的$a$，对于任意一个$k$的取值所形成的各个区间，音都是“重复”的，只是音调的高低有所变化。

所以我们的发挥空间一下子就变得非常有限。

这时候你可能会说：没关系，反正人耳可以分辨$2\ \mathrm{Hz}$的频率变化。$[2^ka, 2^{k+1}a]$之中不是还有很多个$2\ \mathrm{Hz}$吗？所以可用的频率还是非常多的。

确实，从数学上看，

$$ m = \frac{2^{k+1}a-2^ka}{2\ \mathrm{Hz}} $$

随着$k$和$a$的增长，$m$会越来越大，也就是说我们可用的频率会越来越多。可惜很不幸的是，频率越高或越低，人耳的分辨力越差。而且即便是$2\ \mathrm{Hz}$的差异，也不足以用来形成音乐。因为音乐的要求是人能够快速分辨不同的音高，这就要求不同音高间差异应当足够明显。而且，如果这个区间内不同的音高太多，会增加大脑处理的负担。我们的大脑天生倾向于处理具有相似性的事物，包括音乐。所以我们采用的音高应该尽可能少，但又足以充分利用这个区间内的可用频率。

我们使用的音，应该在各个区间内数量相等且“回归”。也就是说，第二个区间的第$n$个音，应当等于第一个区间第$n$音的$2$倍，以此类推。因此就不能采用$m$的算法，因为那样会导致不同的区间内音的数量不一样。

那么每个区间内应该有多少个音最合适？

经过世界各国在漫长历史过程中的实践，最终在当下，绝大多数音乐家都认为，每个区间内有$12$个音，最符合人类听觉和美感方面的要求。

也就是说，假设以$a$作为第一个音，那么$2^{\frac{1}{12}}a$就是第二个音，$2^{\frac{2}{12}}a$就是第三个音……这样一来，对于任意$a$，在经过$12$个音后，都会“回归”到$2a$。

比如，假设第一个音是$2^{\frac{2}{12}}a$，经过$12$个音，也就是

$$ 2^{\frac{2}{12}}a \cdot 2^{\frac{1}{12} \cdot 12} = 2^\frac{14}{12}a = 2 \cdot 2^{\frac{2}{12}}a $$

这称为“十二平均律”。

你可能会产生疑问：为什么要把$2^ka$中的$k$分成$12$份，而不是把$2^{k+1}a - 2^ka$本身分成$12$份，也就是为什么不使用等差形式：

$$\frac{2^{k+1}a - 2^ka}{12}$$

这个问题又是另一个有趣的话题，可能还需要一篇文章来解释。