2024/09/21 | Notion

一、Big data and deep learning for RNA biology

（虽然本文探讨的主要是关于DL在RNA Biology研究的应用，但是在Biology其它领域中我认为是存在很大的参考价值的，因为在Apply DL for biology的时候核心思路是很相似的）

这篇文章的大体思路

(首先主要目标是:为大家提供关于设计和训练出一个在生物学某一领域上能够robust represent data的DL模型的基础理解)

全文思路：

— Large Public Databases for RB

— 如何使用popular DL methods来exploit以及complement RB数据集的characteristics

— 介绍encode各种类型的RB数据的方法，以及什介绍什么样的DL模型适合处理这些encode完的features (✅这部分我认为在实际的Application中应用的比较多。)
成功Apply DL in RNA Biology的三个重要的要素

1️⃣ large-scale datasets and data encoding methods (✅我认为这一点是最关键的)

2️⃣ learning algorithms

3️⃣ 与生物学领域知识align well的techniques

Challenges in Applying DL for RNA biology：

1️⃣ 多数的DL architectures和algorithms没有针对生物数据以及生物学上的任务做优化

2️⃣ 获得一个在size和quality上足够充足的数据集通常很苦难

3️⃣ DL algorithms算法的决策过程的可解释性很差，而提出一个scientific hypothesis通常需要输入与输出之间的因果关系明确。在这一点上，还有赖于DL在可解释性方向上的发展。（但是，我认为仍有一点值得庆幸，那就是embedding与生物学概念之间的“一致性”的验证，这一以结果为导向的“解释方式”，是存在一定的有效性的）

RB Datasets

(这里就不过多的介绍这些数据集的具体细节，论文里有详细介绍，关于数据集中的内容，数据量，数据格式等等。)

1️⃣ GEO & SRA

2️⃣ ENCODE

3️⃣ ArrayExpress & ENA

4️⃣ FANTOM

5️⃣ GTEX, TCGA & ICGC