为世界抗击新冠做了一份贡献?
- slaimlin完全不知道在说啥
- zhjavier虽然看不懂,但看你激动的连用了两个233MAX,也只好帮顶一下了。
- somesun第一名很牛阿, 一把上升199名
一搬前十名有奖金把 - SRTG最高科学家牛逼
- shengjinlove蹭个面子,虽然看不懂。
- cgbox2006
- 上海狗狗牛逼
- mmismm不明觉厉
- 咸蛋小朋友又见操总
蹭面子 - 保密连续两个233max,肯定是非常激动了,不明觉厉。
- jiezi不明觉厉,蹭面子
- playboy23看不懂,只觉得很牛逼,手下都是PHD
- weileziyuan这种才是有意义的事
- Jonsoncao说下大概难点:
斯坦佛给的训练集能用的(信噪比>1)的RNA分子只有2096个,都有107个碱基,在公开的排行中有655个,也是107个碱基。需要预测的值是前68个碱基的稳定性(三个值,反应度,镁溶液50c和ph10下的degradation)。
坑爹的来了,最后排名用的是3055个新的RNA分子,有130个碱基,参加比赛的人需要用机器学习模型预测前91个碱基的稳定性。比较搞笑的是,这些分子的稳定性比赛开始之后还不知道,前天才完全测出来……先不说目前流行的能够学习分子结构而推演出物理性质模型几乎没法解决这个generalizability的问题(机器学习无法发现物理定律),这3055个新RNA开榜之后,大家发现这个bias也太大了吧 233max,第一名更是完全运气。
最后用的模型如下:图卷积神经网络
节点(node):46个one hot encoded categorical feature
边(edge):5个刻画连接和距离的矩阵,外加组织者提供的base pairing probability
外加1个Dense, 和4个4x4卷积filter的边矩阵(带参数可以学习出来)
这个喂给基于矩阵向量乘法的Attention层(大意就是帮你自动发现feature)
最后生成一个类似时间序列的数列喂给LSTM或者一位的卷积层作为最后的regressor
训练方法是简单的cyclic learning rate加上auto-encoder把训练数据稀疏化,直接在Kaggle的云端特斯拉P100 GPU上跑,1000万个参数的神经网络几个小时就练出来秒杀3090 233max - dboy99阿操威武!
顺便八卦一下,rna疫苗前景如何?副作用是否受控? - zo看不懂。只知道小老虎真的棒!
- lastwinner以前谁一直说来着
小老虎智商炫耀? - 隆子的三少爷数学家去解决生物学问题?
- eastwoodwest不明觉厉用到这特别适合
- zo小老虎是坏蛋!
小老虎炫耀逻辑! - sunny5不明觉厉!我就是想问一下,我如果想看懂个这段文字的大概,应该去看哪本基础类的书籍?
- aweiwei所以很多生物学家研究到一定程度之后,就会发现现有的工具不够了,于是开始研究其他学科。最常见的就是学物理和数学,顺带学一些编程。
- Jonsoncao你是神!太赞了,膜拜。
EDIT: 出动了所有能进水区的马甲帮你鸡骚加上 (n=1)
[本帖最后由 Jonsoncao 于 2020-10-7 21:43 编辑] - EVA1用的tf还是pytorch?
- 九月雪花蹭个面子,好棒。
- riquelme_911不觉明历 假装在理解
- qazqaz不明觉厉,棒棒哒!
- 秦王刺荆轲还是看不懂啊,虽不明但觉厉
- Jonsoncao惭愧啊,主力模型除了图卷积的部分,剩下的网络都用的是tf里面集成Keras API,transformer用的Keras的template(https://www.tensorflow.org/tutorials/text/nmt_with_attention只需要encoder不需要decoder)
- EVA1之前以为keras不能做图,学习了!
- imissrain惭愧,向真正的科学家致敬!
- cqlyzz不明觉厉,牛啊
- fooltiger机器学习 卷积神经网络这些的
本帖最后由 fooltiger 于 2020-10-7 23:02 通过手机版编辑 - Jonsoncao本次比赛的难点并不是模型的implementation,模型都有现成的,Keras的layer API和自己在TF里面生造的层无缝结合。
难点是如何让你用107个碱基68个预测值的训练集来训练一个可以预测130个碱基91个值的模型,实际上大家的模型都被前68个带偏了,69-91的预测值乘上一个0.9x的系数就是第一名 233max
第一名是一个grand master但是他因为没时间细算,他的RNN模型只能预测前68个,第68-91位置上的预测值都是0,于是他就把他的模型和其他人发布在Kaggle notebook上十几个公开的模型做了个平均,就得了第一名,喷饭 2333333max
我自己的办法是通过通过训练集用信噪比做bin选出一部分,然后借用arnie做了data augmentation,把训练集的107个碱基截断成78个,然后预测前50个值,真正的107碱基68预测作为private集合的模拟;
这样来决定哪些对网络的改动和参数微调可以增加模型在validation集合上的分数。
有兴趣在kaggle上学习参加机器学习比赛的同学可以私信我,下次有合适的比赛可以一起爬天梯。 - surperhawk高级 蹭面子
- sunrainnet不明觉厉~~~科学家为人类的贡献比政治家多得多啊
- DragonHeart字都认识,意思完全不懂。。。。。。。。。。。。。。。。
- ps2fan不懂,很牛逼的感觉,加分