视频自动生成字幕、ASR技术与在线教育

编者按:眼下,教育部全国高校教师网络培训中心和教育部教育管理信息中心两个单位推动的微课大赛如火如荼,不少高校和中小学教师都积极参与其中。而微课,在我看来,无非是围绕某一个知识点所拍摄制作的、“短小精悍”的以在线自主学习为目的的在线视频。在微课设计制作过程中,字幕问题是一个不小的麻烦。是否有办法把这个麻烦降低,从而提升微课设计开发的难度,让老师真正把注意力放到课程和教学的设计上来,而不是在线视频的制作之类的技术问题上来。这是微课健康发展的重要问题之一。

这篇文章讨论的是视频自动生成字幕、ASR 技术如何可以服务于在线教育。本文作者为和誉资本合伙人吴湘(微博 ID@吴湘-和誉资本),自留地转引自36Kr。以下为全文:
 


1

2009 年 11 月 Google 宣布自家的语音识别技术为 Youtube 提供支持,使得英文的 Youtube 视频可以在上传时直接将其中的语音转化为字幕,2012 年 Google 宣布支持共 10 种语言的识别。同时可以支持超过 50 种语言的自动翻译。

而之后,IT 领域更多将焦点对准 ASR(Automatic Speech Recognition)自动语音识别技术本身。2011 年苹果 Siri 横空出世,且不论其是否真的是个超级智能语音助手,但那个时候国内几乎所有的苹果论坛都充斥着大量山寨的“中文版 Sir”软件,影响力不可不大;Google 在语音识别技术上亦是过硬的,因而在此后将大量精力集中于此,现在 Android 上的语音识别也较为成熟。

那为什么要在这个时点来讲视频自动生成字幕及翻译这个几年前 Youtube 就能做到的事情呢?一切源于时下最火的在线教育。

一讲到在线教育,现在无论是在知乎等问答网站还是 36 氪这种科技新媒体,一概在说如何“微创新”,如何颠覆线下教育。而我想在这里说的,只是很传统,很没创新性的东西:以现有技术,可以快速将国外优秀的教育网站视频课程翻译成中文。但是就仅这一条,便可以使中国用户直接用上目前最好的东西。

举个例子,目前 Udemy 上已经有超过 5000 门的课程,其中 3000 多门是免费的,质量可以说非常好(比例一些教乐器的,实在是精良)。然而,中国的“哑听英语”过于严重,如果有一款应用或插件,可以将这些课程利用现有技术“直接汉化”,那么免费的课程可以直接给中国用户使用,即使是付费课程,如果没有语言的障碍,也应该会有用户使用。

根据上面这种需求,目前已经有两种解决方式:

1、网易公开课式的翻译

优点是准确,但及时性很差,而且耗费的人力物力超大。另外一个就是版权问题,网易也是加入 OCWC 国际开放课件联盟之后才没有版权问题的(其实很多网站上免费的视频都是没取得版权就以免费之名义传播,涉嫌侵权)。

但对其他网站来说,假如原网站不授权,这种方式很难正规发展。而上面提到的这些在线教育网站通常是商业机构,很难谈合作,原网站想做自己直接开中文版就是了。

因此,该方式并不可取。

2、ASR 软件

即利用语音识别技术做成桌面软件,通过 Google 提供的 API,或者是科大讯飞的 API,可以对已经下载下来的视频进行识别并自动对轴字幕并翻译成中文。事实上,已经有一些这样的软件,比如博客园的一位博友的软件作品Autosub,但基本上是个人爱好,利用一些开源的程序编写,功能较为单一和粗糙,如一旦有背景乐干扰,其识别率就大为下降、速度慢。

拿 Autosub 来说,就是一个学生的习作。该软件的主要功能是:打开已经下载的视频,利用 Google 的 API 实现自动呈现字幕,利用 Bing 的 API 实现自动翻译。

拿 Techcrunch 上的一个关于 Linkedin 的视频为例,一个英文不通的用户运用 Autosub 的典型场景如下:

(1)通过嗅探软件下载该视频,文件为 linkedin.mp4
(2)导入视频到软件,识别并翻译(视频中的 walking back 就是识别出来并自动加载的)

 


2

 

通过这一系列动作,的确用户“听懂”或“看懂”了这个视频的内容,但是嗅探、下载等反人类的操作体验是极为糟糕的,而且也不是一般用户可以顺利操作的。

最好的体验应该是怎样的?

上面提到现在的两种常用方式来翻译或自动翻译国外网站视频内容,因为上述的种种缘由极难接受。而在我看来,好的体验场景应该如下:

1、用户打开在线教育网站(免费查看或付费后查看),出现视频页面
2、点击漂浮在视频上面的加载字幕按钮
3、浏览器插件自动嗅探、自动抽取音频、自动加载字幕和翻译。

可惜,目前我还没有发现有这种插件。那么,如何做到?技术点有几个:

1、嗅探功能:如迅雷的嗅探功能已经能够做到这一点
2、抽取音频:抽取该视频的音频并交由 API 去处理
3、加载功能:使处理完毕的字幕加载到页面当中

在手机上的类似体验,原理其实都差不了太多。

现有技术水平的障碍

当然,上面提及的技术还有以下几点问题:

1. 翻译技术目前并不过关。虽然英文识别水平已经能达到 95% 的准确率,但是翻译成中文的质量不敢恭维。不过好在大部分中国用户只要有英文字幕就能解决大部分问题了,毕竟只是听不懂,只要有英文字幕,勤奋的中国人还是可以通过查字典、慢慢磨的方式弄懂的。

2.Google API 在国内使用不畅,比较前面提到的 Autosub,其经常会出现断网的情况,这个实在是糟糕,只能寄望于讯飞等公司了。

3. 有些在些教育网站在国内速度的确是不大好,而且部分国外视频存在无法打开的现象,这个,有点无解。

不过,总的来说,除第一点,这些问题目前都是可能部分程度的解决。

总结

其实,本文通篇没有在讲教育,也没有讲颠覆,而只是讲一种可能性,希望能实实在在的给我们中国的普通用户用上一些美国的现成的而又对中国人也是有用的教育产品。

我们相信群体的智慧,欢迎就在线教育给我们投稿:tips#36kr.com,请移步这里查看详细投稿要求。

留下评论