一、Big data and deep learning for RNA biology
(虽然本文探讨的主要是关于DL在RNA Biology研究的应用,但是在Biology其它领域中我认为是存在很大的参考价值的,因为在Apply DL for biology的时候核心思路是很相似的)
这篇文章的大体思路
(首先主要目标是:为大家提供关于设计和训练出一个在生物学某一领域上能够robust represent data的DL模型的基础理解)
全文思路:
— Large Public Databases for RB
— 如何使用popular DL methods来exploit以及complement RB数据集的characteristics
— 介绍encode各种类型的RB数据的方法,以及什介绍什么样的DL模型适合处理这些encode完的features (✅这部分我认为在实际的Application中应用的比较多。)
成功Apply DL in RNA Biology的三个重要的要素
1️⃣ large-scale datasets and data encoding methods (✅我认为这一点是最关键的)
2️⃣ learning algorithms
3️⃣ 与生物学领域知识align well的techniques
1️⃣ 多数的DL architectures和algorithms没有针对生物数据以及生物学上的任务做优化
2️⃣ 获得一个在size和quality上足够充足的数据集通常很苦难
3️⃣ DL algorithms算法的决策过程的可解释性很差,而提出一个scientific hypothesis通常需要输入与输出之间的因果关系明确。在这一点上,还有赖于DL在可解释性方向上的发展。(但是,我认为仍有一点值得庆幸,那就是embedding与生物学概念之间的“一致性”的验证,这一以结果为导向的“解释方式”,是存在一定的有效性的)
(这里就不过多的介绍这些数据集的具体细节,论文里有详细介绍,关于数据集中的内容,数据量,数据格式等等。)
1️⃣ GEO & SRA
2️⃣ ENCODE
3️⃣ ArrayExpress & ENA
4️⃣ FANTOM
5️⃣ GTEX, TCGA & ICGC