如何获取 TCGA 数据
推荐帖子: 【生物信息学】【生物信息学分析目录】(https://jb243.github.io/pages/836)
1. 通用流程
2. 整理方法1
3. 整理方法2
4. 整理方法3
5. 整理方法4
6. 疑难解答
7. 附录
1.通用流程
⑴ 在Google上搜索TCGA
图。 1. 常用步骤1
⑵ 前往顶部_癌症基因组图谱计划 - 美国国家癌症研究所_
图。 2. 通用步骤2
⑶ 访问正文中的_公开可用_
图。 3. 通用步骤3
⑷ 点击右上角购物车
图。 4. 通用步骤4
⑸ 访问右侧_GDC数据传输工具_
图。 5. 通用步骤5
⑹ 为您的操作系统安装 GDC 数据传输工具
② 下载GDC数据传输工具客户端
③ 下载GDC数据传输工具用户界面(测试版)
④ 将 GDC 客户端和 GDC 用户界面安全下载并安装到“下载”文件夹
⑺ 前往_https://portal.gdc.cancer.gov/_并访问项目
图。 6. 通用步骤 6
⑻ 选择需要的数据
图。 7. 通用步骤7
2.整理方法1
⑴ 点击右上角Manifest按钮,下载.txt文件
⑵ 运行命令提示符(cmd)并参考文本文件的位置输入以下内容
⑶ 还必须输入命令 cd Downloads 来更改目录
① 假设需要移动到gdc-client文件所在目录
② Manifest文件不一定需要在同一目录下
③ 如果Manifest文件在同一目录下,则可以只显示文件名和扩展名
⑷ 以下提示输入有小错误:gdc-manifest → gdc_manifest
图。 8. 整理方法1
⑸ 文件保存在“C:/Users/sun/”中
3.整理方法2
⑴ 如果您环顾四周,请按 下载 按钮下载 .json 文件
⑵ 以文本文件形式打开.json文件并确认uuid
⑶ 运行命令提示符(cmd),参考文本文件所在位置输入以下内容
⑷ 还必须输入命令 cd Downloads 来更改目录
① 假设需要移动到gdc-client文件所在目录
⑸ gdc-client下载uuid
图。 9. 整理方法2
⑹ 文件保存在“C:/Users/sun/”中
4.整理方法3
⑴ 在桌面上打开GDC Data Transfer Tool程序,将方法1中使用的Manifest文件拖入
图。 10. 整理方法3
5.整理方法 4
⑴ 如果对前面的方法没有信心,可以使用UCSC XENA提供的数据集
⑵ 链接1. https://ucsc-xena.gitbook.io/project/public-data-we-host/tcga
⑶ 链接2. https://xenabrowser.net/datapages/
6.故障排除
⑴ ERROR: ###: 403 Client Error: FORBIDDEN: { “message”: “您的令牌无效或已过期。请从 GDC 数据门户获取新令牌。” }
① 如果访问级别未开放但受控制
② 需要相当于权限的token文件
③ 假设token应该和gdc-client文件在同一个目录下
7.附录
⑴ TCGA 条形码(参考)
① TCGA-02-0001-01C-01D-0182-01
○ TCGA : 项目名称
○ 02 : TSS
○ 0001 : 参与者» ○ 01 : 样品
○ C : 小瓶
○ 01 : 部分
○ D : 分析物
○ 0182 : 板
○ 01 : 中心
② TCGA-02 : 样本采集机构
③ TCGA-02-0001 : 识别患者的编号
④ TCGA-02-0001-01 : 患者样本类型(肿瘤或正常)
○ 01 : 原发性实体瘤
○ 02 : 复发性实体瘤
○ 10 : 血源正常
○ 11 : 实体组织 正常
⑤ TCGA-02-0001-01B : 样品件
⑥ TCGA-02-0001-01B-02 : 样品件
⑦ TCGA-02-0001-01B-02D-0182 : 测量用板
⑧ TCGA-02-0001-01B-02D-0182-06 : 多次测量板后认为测量结果最准确
⑵ 【主要缩写】(https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tcga-study-abbreviations)
○ LAML : 急性髓系白血病
○ ACC : 肾上腺皮质癌
○ BLCA : 膀胱尿路上皮癌
○ LGG : 大脑低级别胶质瘤
○ BRCA : 乳腺浸润性癌
○ CESC : 宫颈鳞状细胞癌和宫颈内膜腺癌
○ CHOL : 胆管癌
○ LCML : 慢性粒细胞白血病
○ COAD : 结肠腺癌
○ CNTL : 控制
○ ESCA : 食管癌
○ FPPP : FFPE 试点第二阶段
○ GBM : 多形性胶质母细胞瘤
○ HNSC : 头颈鳞状细胞癌
○ KICH : 肾嫌色症
○ KIRC : 肾肾透明细胞癌
○ KIRP : 肾肾乳头状细胞癌
○ LIHC : 肝癌 肝细胞癌
○ LUAD : 肺腺癌
○ LUSC : 肺鳞状细胞癌
○ DLBC : 淋巴肿瘤 弥漫性大 B 细胞淋巴瘤
○ MESO : 间皮瘤
○ 其他 : 其他
○ OV : 卵巢浆液性囊腺癌
○ PAAD : 胰腺腺癌
○ PCPG : 嗜铬细胞瘤和副神经节瘤
○ PRAD : 前列腺癌
○ 阅读 : 直肠腺癌
○ SARC : 肉瘤
○ SKCM : 皮肤黑色素瘤
○ STAD : 胃腺癌
○ TGCT : 睾丸生殖细胞肿瘤
○ 胸腺 : 胸腺瘤
○ THCA : 甲状腺癌
○ UCS : 子宫癌肉瘤
○ UCEC : 子宫体子宫内膜癌
○ UVM : 葡萄膜黑色素瘤
输入: 2019.08.26 23:32