想到一个用深度学习做自然语言机翻的办法

2018-05-20 02:06

mamania2018-05-20 02:06
首先，收集网路上所有的双语字幕，毕竟这种资源超多嘛，然后开始深度学习。

这些字幕差不多已经包含了人类日常所能说出来的大部分句式了，无非就是主语和宾语不同

然后就是录入各种英译汉的书籍，为啥现在才录入书籍呢，因为大部分书没有一字一句的中英文对照，很难直接学习，但是经过上面的字幕学习，你把几百万文字的原著和译本放在一起，AI就已经可以自动对齐每一句了

再经过这段时间的学习，质量就会提高很多，毕竟是职业译者vs野生字幕嘛

最后就可以向公众开放了

这时候可能AI依旧会从各种字幕组粗制滥造的网络语言（或者黑话）翻译里学坏，所以说这个翻译平台要有个“报告”的功能，用户选择那些看起来低质量或者错误的翻译，点一下报告，就会标记这句话的来源

某个电影的某个版本字幕如果被标记了n多次，AI会自动剔除来自这个字幕的学习内容

这个翻译就会越来越准，越来越接近人类自然语言了
jun4rui2018-05-20 02:10
楼主可能不知道很多年前Google翻译就提供自助矫正的选项了，还有以前Google验证码识别门牌，现在识别一些店面之类的做法。
mamania2018-05-20 02:13
我又跟罗永浩一样重复发明了？

我变成我最鄙视的那种人了吗？
HKE2018-05-20 02:16
楼主想法不错，

莱布尼茨和牛顿一样伟大
jun4rui2018-05-20 02:21
前几个月公开出来的玩法，是从各类电视节目的字幕和音频一起学习，然后识别出里面混合的多个人的声音，通过混在一起的音频就能识别出是视频里面谁说的话，说的什么内容。
kkaiosh2018-05-20 02:38
张口就来，不谈具体算法，不谈具体建模，就一句"收集网路上所有的双语字幕，毕竟这种资源超多嘛，然后开始深度学习。"不愧是讨论前沿物理的论坛，完全不需要关心怎么做。
playboy232018-05-20 02:39
射手网不是在做么
zo2018-05-20 02:43
就是射手网啊
zo2018-05-20 02:45
未来

射手网不会再提供字幕的检索和下载。

不过，射手网正在将库存的字幕文件和电影、电视剧的采样数据整理成训练资料，用在深度学习的研究中。

我们会提供接口，为您合法拥有的视频提供智能翻译的结果。同时也将开放字幕文件（训练资料）的提交入口。

当然，射手网需要人手，协助整理和积累训练资料。研究改进我们的接口、功能和学习算法。

或许有一天，我们并不再需要字幕文件，只要通过一些代码，就能看懂所有我们曾看不懂的那些内容。

2017年初夏 · 沈晟
b02071912018-05-20 02:57
字幕只是说学习材料比那种会议文件新而已吧
億万千2018-05-20 03:35
我觉得谷歌能弄到的语料库肯定不止电影台词
you9bs2018-05-20 03:42
许多深度学习的公司早在做这事了，楼主现在才发现是不是有点迟？