1939年纽约世界博览会上的Voder
1939年纽约世界博览会上的Voder国会图书馆/LC-G612-T01-35566

今天,机器制造的声音与我们对话一直都是。他们充当我们手机的私人助理,管理我们的智能家居,偶尔还会用认不出的电话号码打来电话,告诉我们,我们是大奖抽奖的最终竞争者。

电子声音现在可能很常见,但语音合成的道路上到处都是那些承诺给我们带来未来声音的设备的残骸,但它们的新奇价值并没有持续太久。

贝尔实验室(Bell Labs)的Voder是探索电子语音过程中最吸引人的遗迹之一,它是第一台为我们带来完全合成语音的设备。即使听起来像机器恶魔。

Voder于20世纪30年代首次亮相,是声学梦想家和贝尔实验室的发明家荷马·达德利的发明。在20世纪20年代末,达德利创造了更著名的“通道”声码器,它通过将传入的语音转换成电子信号来编码电话线上的人类语音,然后在另一端使用模拟人的声音的电子声音来复制它。

Voder更进了一步:它在没有人声输入的情况下产生语音。操作员把它当成未来派的管风琴来演奏,但它并没有创造音乐,而是创造了谈话。作为一篇专题文章史密森学会的科学通讯1939年1月,Voder被描述为“第一个真正创造人类语言的设备”。

文章中表达的惊奇由于未来的震惊而有所缓和。“(作者)在拟人化和称之为‘它’之间徘徊。麻省理工学院(MIT)人类学家莉莉娅·基尔伯恩(Lilia Kilburn)研究人与声音技术之间的相互作用,并研究了Voder和许多其他语音合成机器的文化意义,她说:“因此,这里肯定存在一种关于人类智能的焦虑。”“有趣的是,现在人们在讨论亚马逊Echo等技术时,总是带着同样奇怪的恐惧和崇敬。”

1939年贝尔实验室演示会上的人群。
1939年贝尔实验室演示会上的人群。Fæ/公共领域

Voder很难操作。机器可以制造20个左右不同的电嗡嗡声和唧唧声操作人员需要使用10个按键、一块腕板和一个踏板来操作。嗡嗡声和嘶嘶声的频谱可以通过10个键来模拟语音,点击手腕条可以在浊音(任何使用声带的声音,如“uuuuh”)和浊音(不使用声带的声音,如“sssss”)之间切换,而踏板会影响“声音”的音高,从而产生一系列屈变。

用Voder创造单词需要考虑组合成一个单词的各种声音,以及影响其含义的微妙变化。这是一个困难而不自然的过程,甚至只有20-30人学会了如何使用它。

正如基尔伯恩所说,就像声码器和许多其他早期语音合成技术一样,Voder产生的声音通常是男性的,但该设备主要由女性电话操作员操作。事实上,根据那封1939年的《科学新闻信》,Riesz和其他工程师把Voder命名为“佩德罗”,以巴西皇帝唐·佩德罗的名字命名,据说他在听到电话时惊呼:“我的上帝!它谈判!”

尽管困难重重,但在1939年的纽约世界博览会上,Voder终于在贝尔实验室亮相Elektro,吸烟机器人),它看起来确实像是直接来自未来的东西。这是第一次,一个机器人可以自己说话。或者这是主持人说的。

该设备由海伦·哈珀夫人演示,她是Voder的中心操作员,并培训了所有其他用户。在一段演示机器的音频录音中,哈珀说她花了大约一年的时间才学会如何操作它。

哈珀坐在一个光滑的控制台后面,她身后的墙上装饰着一个高大的艺术装饰形象,上面是一个大喊大叫的男人。当哈珀操作Voder按键时,一名主持人会向人们介绍Voder的发声功能。在演示过程中,哈珀让Voder用不同的语调说出同一句话,用法语说出一个短语,模仿老年人声音的摇摆效果,甚至模仿牛的样子。

Voder的演讲听起来有点难以理解,甚至有点令人不安。根据基尔伯恩的说法,除了声音本身,会说话的机器的概念看起来一定有些不可思议。基尔伯恩说:“这对人们来说太可怕了。“我们会自动说话,但我们不愿意认为有什么东西可以自动替我们说话。”

Voder在1939年底的旧金山金门国际博览会上再次展出,但在那之后,这台机器几乎立即消失了。这台机器从未打算作为一种商业产品,而是作为一种概念验证,展示当时贝尔实验室正在进行的令人惊叹的工作。

尽管如此,《Pedro the Voder》仍然可以作为一种迷人的声音合成技术背后的根源而被铭记,我们今天在siri等技术中认为这是理所当然的,更不用说最后一次有人试图像弹钢琴一样演奏人声了。