一、TCGA和GDC简介


一、TCGA和GDC概述

  • TCGA(The Cancer Genome Atlas, 癌症基因组图谱)项目最早始于2005年,由美国政府出资,美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。作为目前最大的癌症基因信息数据库,TCGA的全面不仅仅体现在众多癌型上,还体现在多组学数据,包括基因表达数据、miRNA表达数据、拷贝数变异、DNA甲基化、SNP;相对于GEO数据库,小编觉得TCGA最大的优势是丰富且规范的临床数据,以及针对每种癌型的大样本量,简直令人无法抗拒!

  • TCGA现在的数据均收录在GDC(genomic data commons) 的data portal(https://portal.gdc.cancer.gov/)中,而GDC同时也收录了TARGET数据库的数据。
    在GDC中,可以通过GDC Data Portal 和 GDC Legacy Archive 这两种方式获得TCGA数据,二者比较如下:

GDC Legacy Archive: 以前在CGHUB和TCGA数据门户中存储的原始数据,由TCGA数据协调中心(DCC)托管,在该门户中用GRCH37(HG19)和GRCH36(HG18)作为参考基因组。

GDC harmonized database: 对数据进行了一定标准化处理。包括转录谱数据,甲基化数据,miRNA数据,但缺少芯片数据。

总结来说,GDC Data Portal 中的数据是最新经过统一标准整理的,但有些数据还未开放,而 GDC Legacy Archive 中的数据是所有未经处理的数据,更全面。

  • TCGA样本命名介绍,详见链接https://blog.csdn.net/qq_35203425/article/details/80851862
    从中借鉴一个图片:

    image.png

TSS 是指Tissue source site,组织来源编码,如A6就表示来源于Christiana Healthcare中心的结肠癌组织;
Sample的两个数字可以说是最关键、最被大家注意的,其中编号01-09表示肿瘤,10-19表示正常对照;这个位置最常见的就是01和11,当然偶尔也会有其他的数字。
一般在做TCGA数据分析的时候样本名实际上只保留到前四个元素(以”-“分割),例如TCGA-A6-6650-01。取舍方法也参考上述链接。

二、TCGA数据下载方法(1)---直接从GDC官网下载

接下来简要介绍TCGA数据下载的第一种方式:直接从GDC官网下载,然后进行整理。

  • 可直接使用cart方式下载,详见链接https://mp.weixin.qq.com/s/4rrtCmRbCt_Crj2pEqrBFQ
  • TCGA官方推荐的下载工具: GDC Data Transfer Tool。
    该工具产生的原因是,TCGA中存储的测序数据文件,例如FASTQ和BAM文件,特别是全基因组的BAM文件有时可以达到200-300GB,所以需要一个稳定高效的数据下载和上传工具来处理数据库与用户之间的交互。通过Cart直接下载的方式对小数据量比较适合,如果数据量过大或者网络状态不稳定,下载的时候会经常断掉,所以此时建议使用GDC Data Transfer Tool,支持断点续传。数据量过大或者网络状态不稳定,下载的时候会经常断掉,所以此时建议使用GDC Data Transfer Tool,支持断点续传。利用该工具下载数据的方法见链接https://mp.weixin.qq.com/s/NCPF2sI4RXzezQe__1zmVA
  • 数据整理:所下载的数据单独处于一个文件夹中,需要将其整理到一个表格中,行名为基因ID,列名为样本名。整理思路的简介见链接https://mp.weixin.qq.com/s/v29BscmDodkS4o-NNeC_FA
    整理过程需用R包TCGAbiolinks。