想到一个用深度学习做自然语言机翻的办法
- mamania首先,收集网路上所有的双语字幕,毕竟这种资源超多嘛,然后开始深度学习。
这些字幕差不多已经包含了人类日常所能说出来的大部分句式了,无非就是主语和宾语不同
然后就是录入各种英译汉的书籍,为啥现在才录入书籍呢,因为大部分书没有一字一句的中英文对照,很难直接学习,但是经过上面的字幕学习,你把几百万文字的原著和译本放在一起,AI就已经可以自动对齐每一句了
再经过这段时间的学习,质量就会提高很多,毕竟是职业译者vs野生字幕嘛
最后就可以向公众开放了
这时候可能AI依旧会从各种字幕组粗制滥造的网络语言(或者黑话)翻译里学坏,所以说这个翻译平台要有个“报告”的功能,用户选择那些看起来低质量或者错误的翻译,点一下报告,就会标记这句话的来源
某个电影的某个版本字幕如果被标记了n多次,AI会自动剔除来自这个字幕的学习内容
这个翻译就会越来越准,越来越接近人类自然语言了 - jun4rui楼主可能不知道很多年前Google翻译就提供自助矫正的选项了,还有以前Google验证码识别门牌,现在识别一些店面之类的做法。
- mamania我又跟罗永浩一样重复发明了?
我变成我最鄙视的那种人了吗? - HKE楼主想法不错,
莱布尼茨和牛顿一样伟大 - jun4rui前几个月公开出来的玩法,是从各类电视节目的字幕和音频一起学习,然后识别出里面混合的多个人的声音,通过混在一起的音频就能识别出是视频里面谁说的话,说的什么内容。
- kkaiosh张口就来,不谈具体算法,不谈具体建模,就一句"收集网路上所有的双语字幕,毕竟这种资源超多嘛,然后开始深度学习。"不愧是讨论前沿物理的论坛,完全不需要关心怎么做。
- playboy23射手网不是在做么
- zo就是射手网啊
- zo未来
射手网不会再提供字幕的检索和下载。
不过,射手网正在将库存的字幕文件和电影、电视剧的采样数据整理成训练资料,用在深度学习的研究中。
我们会提供接口,为您合法拥有的视频提供智能翻译的结果。同时也将开放字幕文件(训练资料)的提交入口。
当然,射手网需要人手,协助整理和积累训练资料。研究改进我们的接口、功能和学习算法。
或许有一天,我们并不再需要字幕文件,只要通过一些代码,就能看懂所有我们曾看不懂的那些内容。
2017年 初夏 · 沈晟 - b0207191字幕只是说学习材料比那种会议文件新而已吧
- 億万千我觉得谷歌能弄到的语料库肯定不止电影台词
- you9bs许多深度学习的公司早在做这事了,楼主现在才发现是不是有点迟?