关于AI的自主学习能力，同平常人认为的存储固定路线和纯暴力计算都不一样了吧。

2016-03-11 11:09

aweiwei2016-03-11 11:09
现在“机器学习”这个关键词很火，前半年左右，我们的生物信息研究院来了一个博士，挺厉害的，还是带一个团队做人工智能，主要是设计一个自主学习的程序，根据现有的海量体检数据，自动对一些体检的指标进行学习和分析，做到对一些疾病的自主预测。

大概的意思就是，我们体检的时候，血常规有一些检测的项目，但一些体检项目却是需要影像学的检测（例如用B超检测脂肪肝），对于绝大部分常规体检（例如一些企业的入职体检）来说，是不做影像学体检的。那么我们的目的就是根据已经有影像学确诊的疾病，再附带这些样本血常规的检测数据，让AI去自行学习（例如：拿3000个轻度脂肪肝的血常规数据（经过了影像学确认），告诉AI，这些样本都是轻度脂肪肝，算做阳性样品，你好好找找这些数据的规律，自己算算各项指标的权重），然后再拿已知结果的样品数据去让它自己判断（例如：拿3000个正常的和另外3000个轻度脂肪肝的血常规数据，但AI不知道，让它自己去进行诊断），看看准确性。
当我们让AI学习之后，发现对于“轻度脂肪肝”的判断准确性几乎达到了100%，而且对于血常规的参数来说，有几个指标甚至是以前的国内临床大夫压根就不知道同脂肪肝有任何关系的，还是通过检索大量的国外文献，才在数年前（也不是很久）发现一篇关于该项参数同脂肪肝的临床研究。

当然，这只是20多个参数的一个预测，而且结果也很单一性（阳性或阴性）。不过我们几乎没有自行调整任何血常规检测指标的权重，全部靠AI自行调节。

而我们自己服务器的运算能力，仅仅是天河二号的1/100而已，跑这些已经是很轻松了。

我部门也协助将近30年的关于“机器学习”的专利都汇总筛选了一下（光Excel表就38M了，这还是仅有基本信息），最近这几年，好多关于这种模糊学习能力的研发，算是今后的一个重要研究方向吧。同以前我们想到的那些靠检索数据库来暴力计算的AI已经完全不是一回事了。
cf3b52016-03-11 11:24
人类的大脑只能同时对少量样本进性分析，所以当样本数据很大的时候，人类肯定是先分组一组一组分析，然后在分析的结果汇总起来在分组在分析，这样子一层一层的递减下去，最后得出一个最终的结论！
但是这样的话，很多样本的细节关系就会被丢失，譬如第1组的某个样本细节可能和第10组的某个样本细节有关联，但是按照人类的分析能力来说，很可能没法发现这个关联！
计算机最恐怖的就是同时数据分析能力远超人类，就拿这3k的样本数据来说，人家计算机很可能是同时从3k的样本数据里头直接分析得出一个结论，所有的细节可能都没有放过，就这点来说，确实强人类太多太多了！
aweiwei2016-03-11 11:30
关键就在于这些细节的分析方式，是设计AI的一个非常复杂的关键点，这个地方设计好了，再加上无敌的运算能力，那简直太可怕了。

所以现在的大健康产业特别讲究一个云计算，就是要求对极其庞大的海量数据进行一个自主的分析和学习，并给出一个判断的结果。
柯布西耶2016-03-11 11:32
其实人类的思维也是遵循一定的逻辑规律，只是你感觉不到而已。

AI只不过把这些规律更清晰化而已。

这是不是智能，当然是智能。而且是效率更高，不眠不休，不会撸管的智能，你怕不怕。
达尼.阿尔维斯2016-03-11 11:37
这与智能还是差很远，只是在限定范围内完善补充
论坛之星2016-03-11 11:39
过度关注单一的独立细节只会造成过拟合
但是机器学习可以发现很多本来以为是“独立的偶然细节”，其实是可以泛化的规律
肥肠骑待会给医疗诊断和量化策略交易带来的进步
Nothing2016-03-11 11:51
这个就是机器学习最基础的一块，分类classification,原理很简单，楼主这个就是不断的算一个20几维的矩阵，但是数据堆上来效果有时候好得让人都想不到。
yfl22016-03-11 12:00
这个严格来说还不算自主学习，现在热门的ai重要部分是蒙特卡洛算法，也就是自己制造随机样本来做大量实验，楼主的还是已有样本
LTFYH2016-03-11 12:05
是的，这算法不算新，关键是有大量数据，然后AI分析后优化相关因子。
koakon2016-03-11 12:10
请看教科书神经网络一张。
遗传算法等等基础算法很久以前就有了。
theallmighty2016-03-11 12:13
AI 炒股有人做吗？那是要发啊。
aweiwei2016-03-11 01:37
我只是说这种可以自己学习并自己总结出规律还能根据这个规律做出正确判断的AI，确实同之前我们想象中的AI不太一样。