原先的打算是用 google speech api 给 railcast 加上字幕,结果预期太高被泼了点冷水,不过还算有些收获,如果大家能看懂识别的结果是啥的话那就给点信心,我们继续动脑筋做下去。
基本思路就是音频分割 (使用 ffmpeg) 后使用 google speech api 识别,详细过程和最后的结果参见这里
我想先搞清楚一个问题,音频实现断句后不知道效果会不会改善很多?
@happypeter,你先看看API是不是很懂你啊,
可以找到爱情的这个手机真挺好的 女友然后那我们就拥有了
识别准确率还有待提升啊。
youtube 的方法是识别英文然后翻译成其他语言。即使识别英文也好多错误,勉强能懂,现在想做好似乎还不太现实
识别结果 在我们的模版之中吗加入我们这个真辛苦的女友然后那我们就拥有了 正解 在我们的模版之中吗加入我们这个 tracking code 然后那我们就拥有了
其实光是中文识别起来好像还真不错,混着玩就傻掉了,怎么办?怎么办?
光自动断句就很有用了,可以省掉大量精确调整字幕时间轴的时间. google 的语音识别还是一般般,不过也对听译/切时间有帮助的..
文中提的那本书 Exploring Everyday Things with R and Ruby 值得一看
阀值
...
稍微打击一下楼主,其实 GitHub 有个 GoogleSpeech API 的 gem. https://github.com/taf2/speech2text
现在哪里能注册到这个 speech api 的 client key 啊,反正国内访问 google api console 里面没有这个 api。有人说这个 api 只对 canada & US 地区开放,反正日本 ip 试过也没有显示。另外这个 api 的每日请求限制是多少?上次看到别人截图好像是 50,所以想自己申请个,不然用 client=speech2text 太不保险了
确实没有这个 API,偷偷的用,参考到这里,http://blog.csdn.net/dlangu0393/article/details/7214728,我测试的时候好像没有次数限制。讯飞倒是开放的,你也可以试试