一、Big data and deep learning for RNA biology

(虽然本文探讨的主要是关于DL在RNA Biology研究的应用,但是在Biology其它领域中我认为是存在很大的参考价值的,因为在Apply DL for biology的时候核心思路是很相似的)

  1. 这篇文章的大体思路

    (首先主要目标是:为大家提供关于设计和训练出一个在生物学某一领域上能够robust represent data的DL模型的基础理解)

    全文思路

    — Large Public Databases for RB

    — 如何使用popular DL methods来exploit以及complement RB数据集的characteristics

    — 介绍encode各种类型的RB数据的方法,以及什介绍什么样的DL模型适合处理这些encode完的features (✅这部分我认为在实际的Application中应用的比较多。)

  2. 成功Apply DL in RNA Biology的三个重要的要素

1️⃣ large-scale datasets and data encoding methods (✅我认为这一点是最关键的)

2️⃣ learning algorithms

3️⃣ 与生物学领域知识align well的techniques

  1. Challenges in Applying DL for RNA biology:

1️⃣ 多数的DL architectures和algorithms没有针对生物数据以及生物学上的任务做优化

2️⃣ 获得一个在size和quality上足够充足的数据集通常很苦难

3️⃣ DL algorithms算法的决策过程的可解释性很差,而提出一个scientific hypothesis通常需要输入与输出之间的因果关系明确。在这一点上,还有赖于DL在可解释性方向上的发展。(但是,我认为仍有一点值得庆幸,那就是embedding与生物学概念之间的“一致性”的验证,这一以结果为导向的“解释方式”,是存在一定的有效性的)

  1. RB Datasets

(这里就不过多的介绍这些数据集的具体细节,论文里有详细介绍,关于数据集中的内容,数据量,数据格式等等。)

1️⃣ GEO & SRA

2️⃣ ENCODE

3️⃣ ArrayExpress & ENA

4️⃣ FANTOM

5️⃣ GTEX, TCGA & ICGC