天极传媒:
天极网
比特网
IT专家网
52PK游戏网
极客修
全国分站

北京上海广州深港南京福建沈阳成都杭州西安长春重庆大庆合肥惠州青岛郑州泰州厦门淄博天津无锡哈尔滨

产品
  • 网页
  • 产品
  • 图片
  • 报价
  • 下载
全高清投影机 净化器 4K电视曲面电视小家电滚筒洗衣机
您现在的位置: 天极网 > 软件 > 网页>访谈>声音的力量 谷歌语音技术负责人访谈

声音的力量 与谷歌语音技术负责人对话

天极网软件频道2011-02-17 09:50我要吐槽

  更多精彩相关文章推荐:

  Google计划关闭GOOG-411语音搜索服务

  消息称Google正在研发语音同步翻译软件

  Google为Android开发实时语音翻译软件  

点击查看更多互联网资讯>>

  据国外媒体报道,知名科技博客TechCrunch作者贾森·金凯德(Jason Kincaid)发表文章,讲述了他与Google语音技术负责人迈克·科恩(Mike Cohen)最近进行的一次谈话,内容涉及Google大力投入语音技术的原因及发展前景。

  以下为全文摘要。

  尽管智能手机应用程序花样翻新,层出不穷,但是如果你拿出手机,说一声“寻找到科技馆的道路”,Google就会立即照做的话,你仍然会感到这个情景有点不太寻常。语音技术通过iPhone应用程序,以及与Android的深度整合,正在变得日益普遍,而这实际上仅仅是一个开始。

  回顾过去

  在讨论现在的状况之前,我们先来回顾一下科恩过去的经历,也可以说这是在回顾语音技术的历史,因为虽然科恩从2004年开始一直在Google工作,但他自80年代初在斯坦福研究院做研究时起,就站在语音和技术的交汇之处,至今已经几十年了。

  科恩说,在20世纪70年代语音工作有两大阵营:语言学家和工程师。语言学家强调规则——他们会找出语法和发音上的各种趋势,以及每一个音素如何与其他音素互动。工程师们则采用了不同的方法:他们的目标不是试图以人工方式精心确定每个规则,而是构建复杂的统计模型,当有更多的语音数据输入到这些模型中时,它们就会得以改进。

  到了70年代末和80年代初,当科恩开始在斯坦福研究院做研究时,工程师们正处于领先位置,但是存在着这样一个问题:统计模型的改进已经开始形成渐近线。科恩解释说,因为这些模型总是相同的,向它们输入更多的数据终究会出现报酬递减(例如他们的模型不善于识别发音在多大程度上取决于哪些词被说出,又在多大程度上取决于上下文是什么)。工程师们需要找到一种方式来建立更好的模型,所以他们终于开始与语言学家们合作,造就了另一波研究热潮。

  到90年代初,语音技术已经获得了长足的发展,研究人员创建了航空旅游信息系统(ATIS,Air Travel Information System,用户可以走到一个终端,说“告诉我从波士顿出发的航班”,计算机就会显示相关数据。该系统可以识别这些命令无数种的变化,因此你不必记住某些关键字)。在Windows 95面市时就有了ATIS这样的系统,这让人觉得有些不可思议。

  在ATIS获得成功的基础上,科恩认为这项技术已经做好了商业应用的准备,所以他和三个联合创始人创办了Nuance公司,为需要处理大量呼入电话的大公司建立自动电话系统(电话公司的客户服务系统就是一个例子)。

  科恩继续寻找改善Nuance语音识别软件的方法(鉴于他曾是一位研究者,这也就不足为奇了)。而且事实证明,海量的呼入录音比他在斯坦福研究院做研究时获得的数据更加有用,因为有些东西无法在实验室环境中重现,比如背景中的狗叫声,孩子的哭声等等,而这些声音会出现在呼入的电话中,所以Nuance面临着语音分析的重大新挑战。

  但这里有一个很大的问题:尽管Nuance的技术正在处理大量数据,Nuance公司还是必须向它的每个企业客户提出请求,以便获得这些数据用于研究目的。这样做对企业有好处,因为它们能从技术改进中获益,但一些企业仍然对此持谨慎态度。这最终导致科恩进入了Google。

  GOOG-411项目

  在2004年前,Google基本上没有语音技术,但是科恩看到了机会。即使在那个时候,手机将对未来技术产生巨大影响的迹象就很明显。而且,由于Google直接面对最终用户,它收到的任何语音数据都可以方便地用于研究目的。于是科恩进入Google,着手开展GOOG-411项目,后来它成为Google的免费411语音服务。

  这项服务在2007年推出,它提供了一个简单方便的功能集:你给它打电话询问一些基本信息,比如一个企业的电话号码,它就会马上为你提供相关信息,而且是免费的。科恩说,推出GOOG-411的主要原因就是“它有用”,但它还有一个重要的副作用:Google从此开始建立一个庞大的语音数据库。还记得前面讨论过的数据模型吗?Google语音系统在概念上与之类似,但是规模大得多。

  GOOG-411项目在十月份取消了,但这时Google已经有了更多的语音数据输入方式,包括在Android上到处可见的麦克风按钮,以及Google Mobile的iPhone应用程序。而且Google可以查看基于文本的搜索查询词条,确定一个词后面出现得最频繁的是哪个词。这一切都意味着Google可以相对较快地改进其语言模型。

  科恩说,如今Google使用2300亿个搜索查询词条来“培训”其语音识别功能所使用的语言模型。为了形象地说明数据量有多大,科恩说,如果只用一个CPU,这个“培训”需要70年时间才能完成。

  这项技术现在已经用在Google的多种产品中。YouTube自动为数百万视频添加了字幕。Google语音服务尝试将呼入的语音邮件转录成文字(产生了一些非常滑稽的结果)。语音搜索将在移动设备上发挥更大的作用,所以,如果在不太遥远的将来,你看到配有媒体中心的车辆在运行Android,请不要感到惊讶,它们肯定带有语音功能。

  科恩很高兴地谈起Google在声音技术上做出的努力,但他没有透露统计数据,即将发布的功能,也没有做出预测。科恩承认,Google语音搜索的量波动很大,取决于是否有新的带有语音功能的服务推出,以及是否报刊最近进行了报道。

  当我问他,多久之后语音搜索将变得非常准确,以至于我们可以将它视为理所当然(指不需要再检查文字的拼写错误),虽然他说了类似于“五年”这样话(对于研究工作而言,这相当于是说“我不知道”),但他不愿意谈及具体计划。

  我也问过他,对苹果在语音技术方面采取的行动有什么想法(苹果去年收购了以语音搜索技术为主的公司Siri,很明显苹果想把将语音技术纳入到iOS中),科恩同样也没有这个问题上说多少(虽然这并不令人感到惊讶)。他只是说,Google已经推出了一个产品,因此拥有数据量大的天然优势,但这个问题的答案最终将归结于苹果开发了什么产品以及它与谁合作。

  不过,虽然科恩没有谈及具体细节,他却讲到了Google语音技术的长远目标:让语音输入变得无处不在。 “就像你可以在很多地方用键盘输入文本,你也应该可以在很多地方使用语音输入。”而准确性是其中的一个要点 “它需要极为‘接近完美’,人们选择使用语音输入不在于它的表现,而在于最终用户的喜好。”

 

作者:腾讯科技责任编辑:杨玲)
请关注天极网天极新媒体 最酷科技资讯
扫码赢大奖
评论
* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!
热点推荐
微软Windows 10操作系统Win10系统在Win8的基础上对界面、特性以及跨平台方面做了诸多优化。[详细]
Windows 10 新视界 [进入频道][使用技巧][微博互动]
手机整机DIY企业级