多组学科研分析
发布时间:2021-08-06 栏目:人工智能, 医学 评论:1 Comment
主要包含:
– 影像组学
– 基因组学
– 病理组学
等
基因组学(Geonomics)是一门研究基因组(Genome)的科学。
我们每个人都是由上万亿个细胞构成的,每个细胞中都包含一套完整的生命密码,也就是DNA,而基因组就是指一个细胞中包含的所有的DNA。我们的DNA分布于23对(46条)染色体(Chromosome)上,其中一半来自父亲,一半来自母亲。
基因组学的目的是对一个生物体所有基因进行集体表征和量化,并研究它们之间的相互关系及对生物体的影响。
使用多组学数据预测肿瘤的发生、转移或预后等临床结局,可对临床诊断提供参考。可选的多组学数据特征包括超声特征、临床病理特征、基因表达水平/基因型特征。文献调研表明,采用超声特征与基因表达特征联合诊断良性与恶性的甲状腺癌,在多个独立验证中,Accuracy达到77.8~88.6%,而单采用超声特征的模型Accuracy为74.6~84.3%,单采用基因表达特征的模型Accuracy为70.8~81.4%;采用临床病理特征与基因型特征联合预测乳腺癌患者的淋巴结转移,在外部验证中,模型AUC达到0.917,Accuracy达到0.826,而单采用临床病理特征的模型AUC为0.814,Accuracy为0.696。
一般的分析流程包括特征选择、机器学习模型训练、模型验证与评估这几个模块。
SNP(single nucleotide polymorphism),即单核苷酸多态性,是由于单个核苷酸改变而导致的核酸序列多态。一般来说,一个SNP位点只有两种等位基因,因此又叫双等位基因。SNP在人类基因组中的发生频率比较高,大约平均每1000个碱基中就有一个多态位点。有些SNP位点还会影响基因的功能,导致生物性状改变甚至致病。
多基因风险评分(polygenic risk score,PRS)
常用的R语言工具包:
https://topepo.github.io/caret/
R库WGCNA,其译为加权基因共表达网络分析。该分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。
质控+过滤:
常规的质控和过滤数据是fastqc+trimmomatic,据说fastp更快,而且一次完成质控过滤和出图。
fastp的github:https://links.jianshu.com/go?to=https%3A%2F%2Fgithub.com%2FOpenGene%2Ffastp
fastp的出版地址:https://links.jianshu.com/go?to=https%3A%2F%2Fdoi.org%2F10.1093%2Fbioinformatics%2Fbty560
FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,其官网为:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
NGS 原始数据过滤对后续分析至关重要,去除一些无用的序列也可以提高后续分析的准确率和效率。Trimmomatic 是一个功能强大的数据过滤软件。
Trimmomatic 发表的文章至今已被引用了 2810 次,是一个广受欢迎的 Illumina 平台数据过滤工具。其他平台的数据例如 Iron torrent ,PGM 测序数据可以用 fastx_toolkit 、NGSQC toolkit 来过滤。
Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。软件有两种过滤模式,分别对应 SE 和 PE 测序数据,同时支持 gzip 和 bzip2 压缩文件。
更多Trimmomatic信息:
http://www.usadellab.org/cms/index.php?page=trimmomatic
数据处理:
Sentieon:https://www.insvast.com/sentieon
MutationalPatterns是一个bioconductor上的R包,可以用于肿瘤突变频谱的分析。
GATK:
https://github.com/broadinstitute/gatk/releases
SingleR包:https://bioconductor.org/packages/3.11/bioc/html/SingleR.html
SingleR是一个用于对单细胞RNA-seq测序(scRNA-seq)数据进行细胞类型自动注释的R包(Aran et al.2019)。它通过给定的具有已知类型标签的细胞样本作为参考数据集,对测试数据集中与参考集相似的细胞进行标记注释。
深度学习应用于基因组学:解密人类遗传密码
https://github.com/ThitherShore/DLforGenomics
大家对 “ 多组学科研分析 ” 发表过 1 次评论 Response
留下评论
You must be logged in to post a comment.
近期评论
- Pika发表在《莫里斯蠕虫(Morris Worm)》
- Pika发表在《多组学科研分析》
- crisy发表在《最近关于专利的一点感想》
- walter发表在《机器学习基础知识回顾-马尔科夫过程(Markov Process)》
文章归档
- 2024年3月
- 2024年2月
- 2023年12月
- 2023年11月
- 2023年10月
- 2023年9月
- 2023年8月
- 2023年7月
- 2023年6月
- 2023年5月
- 2023年4月
- 2023年3月
- 2023年2月
- 2023年1月
- 2022年12月
- 2022年11月
- 2022年9月
- 2022年8月
- 2022年7月
- 2022年6月
- 2022年5月
- 2022年3月
- 2022年2月
- 2022年1月
- 2021年12月
- 2021年11月
- 2021年10月
- 2021年9月
- 2021年8月
- 2021年7月
- 2021年6月
- 2021年5月
- 2021年4月
- 2021年2月
- 2021年1月
- 2020年12月
- 2020年11月
- 2020年10月
- 2020年8月
- 2020年7月
- 2020年6月
- 2020年5月
- 2020年4月
- 2020年3月
- 2020年2月
- 2019年7月
- 2019年5月
- 2019年3月
- 2019年1月
- 2018年6月
- 2018年5月
- 2018年4月
- 2018年3月
- 2018年2月
- 2017年11月
- 2017年7月
- 2017年6月
- 2017年5月
- 2017年3月
- 2016年12月
- 2016年11月
- 2016年10月
- 2016年9月
- 2016年8月
- 2016年7月
- 2016年6月
- 2016年5月
- 2016年4月
- 2016年3月
- 2016年2月
- 2016年1月
- 2015年12月
- 2015年11月
给杨老师补充一点:现在国内很多组学的单因素研究,比如最近这两年比较出名的,南京医科大附院和GE影像研究院合作的那篇基于CT的影像组学甲状腺结节良恶性鉴别研究,灵敏度88%,诊断准确率91%,模型AUC 0.92。所以多因素联合模型的研究可以朝着更高的水平进发,嘿嘿