想到一个用深度学习做自然语言机翻的办法

  • m
    mamania
    首先,收集网路上所有的双语字幕,毕竟这种资源超多嘛,然后开始深度学习。

    这些字幕差不多已经包含了人类日常所能说出来的大部分句式了,无非就是主语和宾语不同

    然后就是录入各种英译汉的书籍,为啥现在才录入书籍呢,因为大部分书没有一字一句的中英文对照,很难直接学习,但是经过上面的字幕学习,你把几百万文字的原著和译本放在一起,AI就已经可以自动对齐每一句了

    再经过这段时间的学习,质量就会提高很多,毕竟是职业译者vs野生字幕嘛

    最后就可以向公众开放了

    这时候可能AI依旧会从各种字幕组粗制滥造的网络语言(或者黑话)翻译里学坏,所以说这个翻译平台要有个“报告”的功能,用户选择那些看起来低质量或者错误的翻译,点一下报告,就会标记这句话的来源

    某个电影的某个版本字幕如果被标记了n多次,AI会自动剔除来自这个字幕的学习内容

    这个翻译就会越来越准,越来越接近人类自然语言了
  • j
    jun4rui
    楼主可能不知道很多年前Google翻译就提供自助矫正的选项了,还有以前Google验证码识别门牌,现在识别一些店面之类的做法。
  • m
    mamania
    我又跟罗永浩一样重复发明了?

    我变成我最鄙视的那种人了吗?
  • H
    HKE
    楼主想法不错,

    莱布尼茨和牛顿一样伟大
  • j
    jun4rui
    前几个月公开出来的玩法,是从各类电视节目的字幕和音频一起学习,然后识别出里面混合的多个人的声音,通过混在一起的音频就能识别出是视频里面谁说的话,说的什么内容。
  • k
    kkaiosh
    张口就来,不谈具体算法,不谈具体建模,就一句"收集网路上所有的双语字幕,毕竟这种资源超多嘛,然后开始深度学习。"不愧是讨论前沿物理的论坛,完全不需要关心怎么做。
  • p
    playboy23
    射手网不是在做么
  • z
    zo
    就是射手网啊
  • z
    zo
    未来

    射手网不会再提供字幕的检索和下载。

    不过,射手网正在将库存的字幕文件和电影、电视剧的采样数据整理成训练资料,用在深度学习的研究中。

    我们会提供接口,为您合法拥有的视频提供智能翻译的结果。同时也将开放字幕文件(训练资料)的提交入口。

    当然,射手网需要人手,协助整理和积累训练资料。研究改进我们的接口、功能和学习算法。

    或许有一天,我们并不再需要字幕文件,只要通过一些代码,就能看懂所有我们曾看不懂的那些内容。

    2017年 初夏 · 沈晟
  • b
    b0207191
    字幕只是说学习材料比那种会议文件新而已吧
  • 億万千
    我觉得谷歌能弄到的语料库肯定不止电影台词
  • y
    you9bs
    许多深度学习的公司早在做这事了,楼主现在才发现是不是有点迟?