即时翻译谷歌智能技术弥合了人与人之间的语言鸿沟。
过去,字幕要么是为视频格式预先编辑的,要么是由后期人员编写并在电视上播放的即时字幕,但现在“实时字幕”将改变这种情况,任何用户只需在屏幕上轻敲几下,就可以获得即时准确的音视频字幕。
谷歌的“实时字幕”是自然语言处理技术(NLP)的一种,属于人工智能。它使用算法来促进人和机器之间的一些“交互”。NLP帮助我们将人类语言解码成机器语言。
智能计算的历史
要了解NLP的历史,我们必须回到现代最具创新精神的科学家艾伦·图灵的故事。1950年,图灵发表了一篇著名的论文《计算机器与智能》,论述了计算机的意识和思维的思想,声称没有令人信服的论据证明机器不能像人类一样思考,并提出了“模仿游戏”(现称“图灵测试”)。他提出了一种衡量人工智能能否独立思考的方法。如果它能以一定的概率诱导人们相信它可能是人类,那么它就可以被认为是智能的。
从1964到1966,德国科学家Joseph Wiesenbaum编写了一个名为ELIZA的神经语言学编程算法,它使用模式匹配技术来创建对话。例如,在与“医生”计算机对话的脚本中,如果患者对计算机说“我的头痛”,医生计算机会用类似的短语进行回复,如“你为什么头痛?”这种算法使伊莱扎成为最古老的聊天机器人之一。
1980是NLP的主要转折点。在过去,ELIZA等NLP系统基于一套复杂的规则形成对话,而人工智能无法自行“思考”,而是有点像聊天机器人,使用“预设”响应来适应对话场景。
到1980年代后期,NLP关注于统计模型,以帮助他们根据概率形成对话。
智能翻译是如何工作的?
现代用于语音识别的NLP技术包括一些共同的原理,如语音识别、声音识别、语言识别和日常录音,还可以区分说话人。
“实时字幕”使用三种深度学习模型:两个递归神经网络RNN(一个用于语音识别,另一个用于标点符号)和一个卷积神经网络(CNN)来分类音频事件。这三个模型发出的信号定义了整个翻译的形式和轨迹,即使有音乐声音也能顺利识别。
当音频或视频格式的语音被识别时,自动语音识别系统被触发,允许设备开始将单词转换成文本。当这段对话停止时,比如播放音乐时,系统会停止工作以节省手机电量,屏幕上会显示“音乐”字样。
拼音文字转换完成后,在一个完整的句子中加入标点符号,标点符号会不断调整,使系统计算出的结果不会干扰完整句子的意思。
目前,“实时字幕”只能创建英文文本的指示性翻译,它仍在改进中,有一天会扩展到其他语言。然而,西班牙语、德语和葡萄牙语字幕的旧版本现在可以在Google Meet上使用。
语言代表着人与人之间交流的巨大鸿沟,而技术有着惊人的潜力将人们聚集在一起。自然语言处理技术可以弥合人与人之间的这些鸿沟,共同建设更美好的未来。