文章预览
学习笔记总结于『生信技能树』马拉松课程 本文补充学习TCGA库、肿瘤知识等内容,建议先阅读 转录组数据的获取 一文,再看本文 前言 相比于非肿瘤疾病,肿瘤疾病的生信更好做,因为肿瘤可做的分析多一点。非肿瘤数据为什么没法做太多分析?以预后分析为例 ①样本少:虽然肿瘤、非肿瘤疾病都能做预后分析,但肿瘤样本很多。如果分析的数据样本太少,那么构建的模型其质量可能不高 ②随访数据不完善:随访需要人力、物力、财力,小机构搜集的数据与TCGA这种规模庞大的组织所搜集的数据相比,还是有些差距的 一、TCGA的肿瘤和样本 既然说TCGA数据库的样本更多,那我们来看看其中都有什么 1.TCGA里面的癌症种类有33种 图1 2.TCGA中每种癌症的样本 从泛癌矩阵中统计得出大概的样本数量如图2,发现tumor的样本数量普遍比normal的多很多,嘛……
………………………………