即时翻译谷歌智能技术弥合了人与人之间的语言鸿沟。

今年3月，谷歌在Chrome浏览器上推出了“直播字幕”功能，该功能利用机器学习为各种视频或音频片段创建即时字幕，为聋人和听力受损者提供更多访问互联网内容的机会。

过去，字幕要么是为视频格式预先编辑的，要么是由后期人员编写并在电视上播放的即时字幕，但现在“实时字幕”将改变这种情况，任何用户只需在屏幕上轻敲几下，就可以获得即时准确的音视频字幕。

谷歌的“实时字幕”是自然语言处理技术(NLP)的一种，属于人工智能。它使用算法来促进人和机器之间的一些“交互”。NLP帮助我们将人类语言解码成机器语言。

智能计算的历史

要了解NLP的历史，我们必须回到现代最具创新精神的科学家艾伦·图灵的故事。1950年，图灵发表了一篇著名的论文《计算机器与智能》，论述了计算机的意识和思维的思想，声称没有令人信服的论据证明机器不能像人类一样思考，并提出了“模仿游戏”(现称“图灵测试”)。他提出了一种衡量人工智能能否独立思考的方法。如果它能以一定的概率诱导人们相信它可能是人类，那么它就可以被认为是智能的。

从1964到1966，德国科学家Joseph Wiesenbaum编写了一个名为ELIZA的神经语言学编程算法，它使用模式匹配技术来创建对话。例如，在与“医生”计算机对话的脚本中，如果患者对计算机说“我的头痛”，医生计算机会用类似的短语进行回复，如“你为什么头痛？”这种算法使伊莱扎成为最古老的聊天机器人之一。

1980是NLP的主要转折点。在过去，ELIZA等NLP系统基于一套复杂的规则形成对话，而人工智能无法自行“思考”，而是有点像聊天机器人，使用“预设”响应来适应对话场景。

到1980年代后期，NLP关注于统计模型，以帮助他们根据概率形成对话。

智能翻译是如何工作的？

现代用于语音识别的NLP技术包括一些共同的原理，如语音识别、声音识别、语言识别和日常录音，还可以区分说话人。

“实时字幕”使用三种深度学习模型:两个递归神经网络RNN(一个用于语音识别，另一个用于标点符号)和一个卷积神经网络(CNN)来分类音频事件。这三个模型发出的信号定义了整个翻译的形式和轨迹，即使有音乐声音也能顺利识别。

当音频或视频格式的语音被识别时，自动语音识别系统被触发，允许设备开始将单词转换成文本。当这段对话停止时，比如播放音乐时，系统会停止工作以节省手机电量，屏幕上会显示“音乐”字样。

拼音文字转换完成后，在一个完整的句子中加入标点符号，标点符号会不断调整，使系统计算出的结果不会干扰完整句子的意思。

目前，“实时字幕”只能创建英文文本的指示性翻译，它仍在改进中，有一天会扩展到其他语言。然而，西班牙语、德语和葡萄牙语字幕的旧版本现在可以在Google Meet上使用。

语言代表着人与人之间交流的巨大鸿沟，而技术有着惊人的潜力将人们聚集在一起。自然语言处理技术可以弥合人与人之间的这些鸿沟，共同建设更美好的未来。