- 新生儿基因筛查
- 赵正言 周文浩 梁德生主编
- 10553字
- 2025-03-19 15:08:07
第六节 基因数据库与人工智能
一、基因组数据分析和深度学习的应用
高通量测序技术的出现对人类的遗传疾病的诊断和检测带来了革命性的发展。全基因组和全外显子组测序极大促进了罕见病的科研和临床应用,同时也提高了对常见病的致病基因和位点的认知。我们现在处于遗传数据大暴发的阶段,全世界有成千上万的人类基因组测序结果。而随着数据指数的增长,如何有效分析并解读这些数据并精准地辅助临床诊断,是目前面临的极具挑战的工作,而解决这一障碍最有希望的方法是深度学习。深度学习是机器学习的一种变体,在图像识别或机器人技术等领域已成功实施,它的一个特性是在大量数据的时候最有效。因此,深度学习完全适合于基因组学领域的工具。尽管目前基因组学的深度学习还处于早期阶段,但它在癌症诊断和治疗、临床遗传诊断、人群基因组学、功能基因组学等领域有重大的潜在应用价值。本章节主要谈一下基因组数据的分析及机器学习在基因组数据研究中的应用。
数据分析的步骤通常包括数据收集、数据质量检查、过滤,数据处理,建模、可视化以及数据报告。利用生物信息学手段对含变异的基因进行基因功能注释并解读,挖掘基因功能和潜在机制,建立基因网络图谱是对基因组数据执行分析的常见操作。在基因组时代,随着对基因组数据的全面分析在临床和科研中越来越流行,对用于数据处理的工具和方法的需求也日益上升。不断有科研人员或商业公司开发新的分析软件对数据进行快速有效地分析。但目前最常用的基因组数据分析工具是基于Broad研究所科研人员开发的一系列相关分析工具,如BWA-GATK分析流程。GATK是GenomeAnalysisToolKit的缩写,是目前最主流的用于高通量测序数据中分析变异信息的软件。我们接下去主要介绍一下以Illumina下一代测序(next generation sequencing,NGS)基因组数据为基础的分析流程以及相应开发的一系列工具。
(一)基因组数据分析流程
1.数据的收集
Illumina公司采用边合成边测序的方法,首先将DNA分子用超声波打断成一定长度的小DNA片段,然后在每个小片段的两端加上接头,构建单链DNA文库;将建好的文库在Illumina测序流动槽上进行桥式PCR扩增和变性,同时在反应体系中添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4种dNTP。在测序反应过程中,光学设备每次记录一个碱基的荧光信号记录并利用计算机将其转化为测序碱基直到所有碱基反应完成。测序数据下机后的图像信息根据样本清单利用bcl2fastq将测序的文件转化成后续分析所需要的Fastq文件。因此每个Fastq文件里包含了许多随机分布的基因组上的短序列(reads)。
2.数据质控
由于测序原理、测序仪器或实验操作等原因,会导致测序数据中部分数据的质量出现问题,测序数据质量的好坏会对后期的数据分析造成困扰,因此在拿到原始的Fastq文件后我们需要对数据进行质量控制,去掉一些低质量的序列。我们首先拿到数据后,一般需要了解各个位置的碱基质量值分布,也即碱基的错误率分布情况。数据质控常用的是FastQC和Trimmomatic。FastQC是基于Java的一款快速进行测序数据评估的软件,运行结束后会给出两份格式的报告,后缀为html的文件可以直接用浏览器打开输出图表化的数据质量报告。报告首先会给出测序数据一个基本的信息,如测了多少序列碱基、平均测序长度是多少,以及基因组上的GC含量是多少。随后的几张表格分别会给出测序碱基的质量。质量值为10时说明该碱基的错误率为10%;20时表示错误率为1%;30时表示错误率为0.1%。另外,会给出测序数据的GC含量分布、N碱基的含量,重复序列、是否有接头序列等。Trimmomatic主要用来去除Fastq 序列中的接头和引物序列,从序列的5'端开始,进行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。根据碱基质量值对Fastq序列进行头尾修剪等。
3.数据预处理
测序数据在去掉低质量的序列后,我们需要开始对数据进行预处理。测序预处理包括序列的比对排序、去重复序列以及碱基质量校正。由于NGS的原理,我们知道测序下机后Fastq文件里的短序列在基因组上的顺序关系被打乱并随机分布,因此,需要将这一堆数据用已知的参考序列进行比对,将每一条read在参考序列中的位置最大化进行对应并排序,这个按图索骥搜索定位的过程就是序列的比对(mapping)。对于人类基因组这样海量的短序列数据,需要快速的算法来搜索定位短序列在基因组中的位置,目前最常用的工具是BWA(Burrows-Wheeler Aligner)。首先通过压缩算法(Burrows-Wheeler Transformation)对参考序列建立索引,然后将短序列比对到基因组上。其特点是快速、准确,省内存空间。BWA包含三种算法:BWA-backtrack一般用来比对Illumina序列70bp以下的片段,BWA-SW比较多用于短序列之间有很多gap的情况,可以支持70bp~1Mb的reads序列。首推的是BWA-MEM算法,它利用压缩和后缀树结合的算法对序列进行比对,其相对于BWA-SW更加快速和准确;同时相对BWA-bactrack,在对70~100bp reads的比对上有更优的性能。该算法先使用MEM(maximal exact matches)局部比对,再使用SW算法进行延伸。因此对于一条序列的不同部位可能会有各自最优匹配结果,从而产生多个最佳匹配位点,这对于长读长序列很有优势,但也会导致后续一些分析软件的不兼容。因此,我们需要在执行该工具的时候,选择合适的参数进行择优序列比对。比对后的数据输出文件格式为SAM格式,可以通过SAMtools工具将其转化成BAM文件格式以方便后续的分析。BWA比对完的数据是按照Fastq文件的顺序逐一定位到参考基因组上,比对后的位置先后顺序未定,故需要按照同一染色体中对应的坐标顺序将序列从小到大进行排序。同样可以用SAMtools来进行排序。
在前期准备样本或建库的过程中,有整体或局部的样本DNA浓度不达标,我们需要对目标序列进行PCR扩增以达到测序浓度要求,因而保持测序过程中读取的DNA片段样本具有相对一致的机会,从而保持整体序列的完整性。然而,PCR反应同时也会放大原本浓度不低的DNA片段,从而被选择测序的机会更多。但是,DNA在前期打断中可能会引起一些碱基人为变换,PCR扩增会放大信号从而导致碱基变异假阳性率的上升,而PCR本身也会引起扩增错误,带来假阳性结果。并且PCR反应也会对某一些碱基序列偏向性扩增,如果偏向的是参考序列上的碱基序列,可能会弱化真实的变异碱基信号而导致假阴性的产生。因此,我们需要在进行变异检测之前对序列进行重复序列的标记或去除,减少假阳性和假阴性的发生。这一步我们可以用SAMtools或Picard来操作。目前的GATK4版本整合了Picard软件的一系列功能。
数据预处理的最后一步需要对碱基的质量值进行校正(base quality score recalibration,BQSR)。碱基的质量值是衡量后期变异位点鉴定正确性的重要依据。上文提到,原始数据本身就提供了每个碱基对应的质量值,它来自测序图像数据的碱基鉴定。某个位点前后碱基的种类、测序仪器、测序反应等都会影响碱基的质量值。测序仪提供的碱基质量值是不完全准确,存在误差的,需要进行碱基校正。BQSR主要通过机器学习的方法构建测序碱基的错误率模型,再对这些碱基的质量值进行相应的调整。BQSR主要有两步:第一步,利用GATK工具里的Base Recalibrator,根据一些已知的位点数据(known sites),计算生成一个校正质量值所需要的校准表文件;第二步,利用得到的校准表文件重新调整原来BAM文件中的碱基质量值,并使用这个新的质量值重新输出一份新的BAM文件,使其碱基的质量值能够更加接近真实的与参考基因组之间错配的概率。
4.变异位点的检测
数据质量控制、过滤及校正后,我们进行遗传变异位点的鉴定。变异位点的鉴定一般用贝叶斯方法来计算,通常是在假设不同位点相互独立,同一位点测序错误或比对误差相互独立的基础上,利用已知的基因组信息,计算每个位点基因型的概率。GATK开发的Haplotype Caller模块同直接推算位点的概率不一样,它首先推断群体基因组上单倍体的组合情况,并计算各个组合的概率,再根据单倍体的概率推算每个位点的概率,最后用贝叶斯计算每个样本最可能的基因型组合。由于这个方法在计算时同一时间考虑所有的位点,因此在变异鉴定的时候极少会因基因组上小结构改变引起碱基错配,从而导致变异检测出现错误。Haplotyper Caller方法是目前最适合用于对二倍体基因组进行变异(SNP+Indel)检测的算法。这一步得到一个变异位点的vcf文件。
5.变异位点过滤
在获得原始的变异检测结果之后,我们要做的就是质控和过滤。在变异位点数足够多的情况下,我们可以用变量质量分数 重 新 校 准(variant quality score recalibration,VQSR)的方式进行质控。VQSR根据机器学习的算法利用自身的数据和已知变异位点的数据集的交集,通过GMM模型构建一个分类器来对变异数集进行打分,从而评估每个位点的可信度。简单来说,已知变异数集会告诉我们群体中存在变异的位点,由此可以增加该位点在个体中是真实位点的可能性。可以从个体数据中筛出和已知位点相同的变异,作为真实的变异结果。VQSR可以通过这个筛出来的数据作为真实数据来训练,并构建模型。如果变异位点不足够的情况下,可以人为根据需要把不满足阈值的变异位点直接过滤去除。
6.位点注释
过滤后的VCF文件里的变异位点需要进行变异类型、变异位置、功能变化、在人群中的频率等的注释。注释的工具最常用的有ANNOVAR、snpEff及VEP等。不同的注释软件功能大同小异,在注释时可能稍微有差异,因此可以作为临床解读的互补文件作为参考。
ANNOVAR由perl编写,收集整理了目前最常用的碱基位点信息和频率数据库(dbSNP、gnomad、exAC 等)、位点功能预测工具(SIFT、CADD 等)、位点解读信息数据库(ClinVar等),以及ACMG对位点解读的参考标准。同时提供参考基因组不同版本的下载链接,临床医生和科研人员可以根据不同需求下载对应版本。ANNOVAR主要包含三种不同的注释方法:基于基因的注释(gene-based Annotation)揭示变异位点与已知基因直接的关系及对其产生的功能性影响,包括在基因上的位置,外显子上氨基酸功能的变化及具体信息,可以灵活地使用RefSeq基因、UCSC基因、ENSEMBL基因、GENCODE基因或其他基因定义系统进行位点基因定位注释;基于区域的注释(region-based annotation)揭示变异位点与不同基因组特定段的关系,如它是否在保守区,是否落在转录因子结合区域等;基于筛选的注释(filter-based annotation)则给出一系列变异位点的信息,如是否在指定的数据库,如dbSNP、ExAC、gnomoad等数据库中报道过,以及不同的算法对变异位点注释的结果(SIFT/PolyPhen/MetaSVM/CADD等),位点与疾病的关联注释(ACMG位点解读指南及ClinVar等)。
snpEff是一款基于 Java语言开发的软件,它对变异位点在基因组上的注释有相对更详细的信息。它根据基因组不同版本的参考序列给出相应变异位点的位置,定义突变类型,对变异位点进行简单的功能评估,给出基因名称、变异在外显子上的位置、转录本类型,变异位点与最近的特征的距离:当变异位点位于基因间区时,会给出与最近的基因之间的距离;当变异位点位于exon区域时,会给出与最近的内含子边界的距离。它还能对注释结果的可靠程度进行评估。
VEP是国际三大数据库之一的ENSEMBL提供的,它是基于perl语言开发的软件。跟snpEFF一样,是对遗传变异信息提供更具体的注释,而不仅是基于位点区域和基因。
三款软件对变异位点的注释方面都很专业,临床医生或科研人员可以根据需要选择不同的软件进行注释补充。
7.位点解读
注释后的文件,我们需要进一步的过滤解读筛出致病或相关的变异位点。这一步是结合临床问题做进一步数据报告的关键一步。具体的解读过程在上一章节中有详细说明,这里简单而言,就是需要根据疾病的发病率、遗传特征、临床表型来筛选出相关的致病位点。通常来说,成功鉴定临床相关基因变异位点的概率为20%~30%。成功率取决于对疾病之前的遗传认知、详细的临床资料挖掘及家族史的了解。通常,我们会鉴定出一些意义不明的位点(variants of unknown significance)或功能不明的基因。对于这些结果,临床上是否可以报道往往很难决定。因此需要专业人士包括临床人员、遗传学家及基础科学家对潜在的致病位点进行有效评估并进行判断。尽管临床上对于意义不明的位点很困扰,但往往很有研究的价值,有可能为疾病提供了新的致病基因或新的信号通路。
(二)遗传大数据分析未来展望
高通量测序从根本上改变了临床和科学研究上遗传问题的范围和本质。随着技术的突破及价格的不断下降,许多之前未知未诊断的临床和科研问题得以应用解决,越来越多的遗传数据得以累积。然而由于生命的整体性和疾病的复杂性,病因学的研究涉及基因、环境,由此产生的海量数据和医院信息化迅速发展累积的其他学科数据,如电子病历、医学影像、医疗设备检测等数据,为生命科学领域带来了重大的机会和挑战。未来的数据分析,不仅是基因组上变异位点的分析解读,还需要结合不同组学,如蛋白组学、代谢组学、宏基因组学、表观遗传学、药物组学的数据甚至个体细胞水平的分析,利用各种数据进行综合分析,网络化管理,为疾病的发生、预防和治疗提供全面、全新的认识。然而,数据的不断累积,需要面临的问题也很多,如如何规范有效地存储各种数据,如何从大数据里筛选有用信息,如何快速地处理海量数据,如何建立合理的模型对数据进行分析等。因此,专门针对基因组数据分析的高性能计算的需求日益增加,从算法技术到硬件设备的要求也在不断改进。把复杂的分析步骤切割成微服务,部署在商业或专业云端,增加每一步的可伸缩性,可以减少世界各地需要进行组学分析的小型实验室购买高性能服务器搭建分析软件环境的压力,提高分析效率,也是未来趋势之一。另外,对各类数据的处理,需要临床医学、基础科学、遗传学、计算机专业的复合型人才,推动计算科学和生物科学的交叉学科如何更清晰有效地传递和报道这些数据,如何将数据可视化、如何统计数据,以什么样的方式呈现数据也是未来必须要面临的问题。
针对海量组学数据带来的巨大的计算问题,多核学习(multiple kernel learning)算法、人工智能、有参模型、无参模型大数据机器学习、统计建模等技术不断被开发利用。未来利用计算机,解决多组学数据分析面临的多维度、数据结构复杂、不完整等问题是未来大数据分析极其期待的领域。
二、人工智能、深度学习及其临床应用
人工智能(artificial intelligence,AI)是一门通过计算机系统来实现任务的新兴技术,这些任务既往通常需要人类智慧来完成。随着AI软件与硬件的发展,尤其是深度学习算法和图形处理单元(graphics processing unit,GPU)的升级,AI在医疗领域的应用引发了人们的关注。
AI技术,尤其是深度学习技术,具有强大的学习能力。深度学习技术是AI的一个技术分支,能够通过深度神经网络结构从复杂庞大的数据集中学习规律和特征,对已由人类进行解读的医疗数据进行学习,处理同一类型的新数据,从而对疾病进行判断和预测。
在临床诊断中,AI能够对原始的医疗数据进行高效解读,并处理多种类型的数据,因此能运用于多种医疗诊断任务:
(一)计算机视觉
计算机视觉主要用于获取、处理和分析图像和/或视频,主要步骤包括图像采集、预处理、特征提取、图像模式检测/分割和分类。计算机视觉可用于处理放射影像和病理图像,分析肿瘤、视网膜病变、心脑血管病变、脊柱病变和皮肤病变等。在遗传学领域中,肺癌组织病理的深度学习不仅能够鉴别肿瘤细胞及其类型,还能预测肿瘤中的体细胞突变类型;面部图像识别可以提取表型特征,辨认罕见遗传疾病并指导分子诊断。
(二)时间序列分析
时间序列分析通过处理时间数据来对一系列观察结果中的离散状态或异常情况进行检测或预测,可应用于产生连续输出信号的医疗设备,如应用于心电图检测心脏收缩功能障碍及心房颤动等心律失常。任何有序数据都可以运用时间序列分析,包括DNA序列:时间序列算法可用于预测选择性剪接的模式和非编码DNA的功能。
(三)语音识别
语音识别算法能够提取并处理人声中的原始声波,从而识别语音的语速、音调、音色、音量等基本元素和情绪变化等更复杂的特征。语音识别在检测神经系统疾病或精神障碍中具有一定潜力,如阿尔茨海默病、帕金森病、重度抑郁症和创伤后应激障碍等。在遗传学领域,语音识别可以检测潜在的遗传疾病,为后续的检测提供线索。
(四)自然语言处理
自然语言处理提取人类语言中的含义,将输入的文件进行转换输出,转换功能包括语言翻译、文档分类、摘要总结和其他更高级内容的提取。自然语言处理可用于从电子病历(electronic health record,EHR)中进行信息提取,识别患者临床特征、疾病诊断、人口统计学数据和用药方案等,有助于后续对患者疗效、预后、再次入院率或死亡率的预测。自然语言处理还可将医疗术语转换为更易于非医疗行业人士理解的语句,有助于医疗咨询和健康教育等的进行。如AI机器人可协助遗传咨询师更好地与咨询对象进行沟通。结合基因数据,自然语言处理能够用于罕见病的诊断,并有助于以表型为基础的遗传分析。
三、人工智能在临床遗传学的临床应用
临床遗传学和精准医学的实现以大数据为基础,而AI技术为大数据的挖掘分析提供了有力的武器。在临床遗传学中,AI技术已适用于多个基因组分析步骤,包括变异识别、基因组注释、变异分类和表型基因型匹配等,还有助于解读表观遗传学研究中的大数据。遗传咨询中运用AI技术将有助于提高效率、优化服务。
(一)变异识别
临床基因组学中,变异识别需要有极高的准确性。标准的变异识别工具容易因样品制备、测序技术或体细胞嵌合等因素出现系统错误。虽然有多种统计技术旨在解决这些错误,但仍存在偏差。AI算法可以通过学习这些偏差来输出更准确的变异识别。如基于卷积神经网络(convolutional neural network,CNN)的 AI工具 Deep Variant,在变异识别任务中展现出比现有识别工具更高的精确度。
(二)基因组注释和变异分类
对于编码区的变异,目前已有多种算法可用于对非同义突变进行注释和分类。如联合注释依赖耗尽(combined annotation-dependent depletion,CADD)法基于机器学习算法,可将不同的注释整合到单个度量中,来预测每个变异的致病性;在CADD基础上进一步拓展的DANN法基于深度学习算法,可以捕获CADD无法捕获的非线性关系,错误率也更低。还有一些AI算法可以直接对DNA序列或蛋白质序列数据进行分析预测,如Primate AI和 Deep Sequence。Primate AI采用的CNN经过了非人灵长类种群常见变异数据的训练,能够以88%的准确性识别罕见病致病基因,有助于对意义不明确变异的解读,在辨别发育障碍候选基因中的良性和致病性新发变异时优于其他预测工具。Deep Sequence是一种深度生成模型,在预测遗传变异,尤其是复杂的变异,对于蛋白质功能的影响中具有潜力。
非编码区变异的鉴别和预测是一个较大的挑战,AI技术将有助于我们对非编码变异的解读。Splice AI是一种能够预测mRNA转录前序列剪接点及引发剪接的非编码变异的深度神经网络。由于DNA片段间复杂的相互作用,剪接变异通常难以识别,但Splice AI能够精准地进行预测,并有助于罕见遗传病新发致病变异的预测。深度学习算法还能用于检测基因组调控元件,并预测遗传变异对这些调控元件的影响。如多任务分层结构CNN DeepSEA能够对转录因子结合位点、DNase超敏位点和遗传变异对调控元件的影响等进行预测,并具有较高的准确性,可用于孤独症谱系障碍家系的WGS数据分析,以寻找候选非编码变异。
(三)表型-基因型匹配
疾病的分子诊断不仅需要鉴别候选致病变异,还需要确定患病个体的表型与候选致病变异可能产生的表型之间的对应性。AI技术能够通过提取医学影像和EHR中的信息,来帮助匹配表型和基因型。
在识别面部畸形时,医务工作者会单独识别异常的表型并整合到临床诊断中,从而指导基因测序或更全面的遗传数据分析。然而,由于不同的遗传综合征可能具有相似的表型,由医务工作者得出的临床诊断通常不能与分子诊断精确地匹配。而AI技术则能更精确地进行临床诊断工作。基于CNN的面部图像分析算法Deep Gestalt量化了数百种综合征的相似性,能够对匹配到同一临床诊断的分子诊断进行区分,识别出疾病亚型。整合Deep Gestalt的基因解读系统PEDIA还可采用面部相片中提取的表型特征,预测单基因疾病的候选致病变异。
在癌症的诊断中,AI技术同样也能发挥作用。生存卷积神经网络(survival convolutional neural network,SCNN)可以将自适应机器学习算法与传统的生存模型结合,并将肿瘤组织学图像形态学特征与基因组特征整合,从而预测胶质瘤患者的临床结局。AI技术还能识别肺癌组织病理学图像中的形态特征,区分较长生存期和较短生存期的患者。
AI技术除了从面部图像和病理图像中识别疾病表型,还擅长从EHR中的各类记录或检测和检查指标中进行识别工作。AI通过自然语言处理从EHR中提取临床特征,模仿医师的临床推理方式,从而生成诊断体系,能够以92%的精确度鉴别55种常见的儿科疾病诊断。当结合基因解读系统时,自然语言处理系统能够自动从HER中提取表型描述,并与候选致病变异的表型特征进行匹配和排序,实现快速而准确的自动化诊断,还能识别出既往无法判断的因单个变异而致病的疾病亚型个体。
(四)基因型-表型预测
从遗传数据中预测表型是AI技术的应用之一,如预测身高或疾病风险等。深度学习可以结合影像学、HER和可穿戴设备数据等其他资料,强化表型预测模型。从中间的分子入手将更易于对表型进行预测,如通过预测基因表达或基因剪接对应的表型,进一步进行疾病表型预测。此外,遗传数据可作为疾病发生发展的生物标志,但通常需要进行复杂的分析。深度学习有助于提高这些生物标志的测定质量,如DNA序列、甲基化和基因表达等。
遗传学的最终临床目的是对可能发生的疾病进行诊断预测和风险估计。AI技术能对多种类型的健康数据和危险因素进行整合,将有助于全面分析和预测疾病风险。疾病是遗传、环境和行为三者相互作用的结果,结合遗传和非遗传相关的危险因素能提高风险预测的准确性,优化疾病风险分层。目前的模型仅仅将遗传和非遗传因素放入简单的相加模型中进行整合,并不能捕捉不同危险因素之间复杂的因果关系。AI技术算法则擅长分析危险因素之间的复杂性,将在未来具有很好的发展前景。
(五)表观遗传学
DNA甲基化与肿瘤等疾病发展相关,能够反映环境暴露情况,提高诊断和预测的准确性,并有望成为个性化治疗的靶标。监督学习和非监督学习是机器学习的两种形式。监督学习可以解决回归和分类问题,通过对表观遗传数据的监督学习,可以对转移性脑肿瘤、前列腺癌、冠心病、神经发育综合征和中枢神经系统肿瘤进行分类。而非监督学习有助于对带有大量数据点的数据集进行模式检测,可以用于检测患病个体和正常个体的甲基化模式。深度学习目前也已被应用于对神经胶质瘤中的基因突变进行分类,并对单细胞DNA甲基化状态进行预测。
(六)遗传咨询
AI技术将有助于在患者识别、风险评估和辅助诊断等各方面提高遗传咨询的工作效率和效力。在遗传检测实验室中,AI被运用于生物信息分析流程中,协助分析复杂的表型、评估基因变异或对基因组中的新发现进行分类。因此遗传咨询师将会获得由AI技术参与分析的遗传检测结果。AI技术可以运用面部识别算法对从面部照片中提取的特征进行分析,提供可能的诊断匹配项,协助遗传医师的诊断。机器学习和自然语言处理技术能够帮助医务工作者和咨询者识别疾病高风险人群,并提供健康教育。基于AI技术的临床决策支持系统能够汇集易感基因信息、药物批准情况和诊疗指南,为乳腺癌的诊治提供建议。
风险评估是遗传咨询的重要步骤,有助于识别高危人群,为临床决策提供依据。AI技术不仅可以协助咨询师收集家庭健康信息并进行风险评估,还能将评估通过电子邮件发送给咨询者、自动生成患者文档、追踪样本和进行后续随访。
基于自然语言处理算法的聊天机器人是AI在遗传咨询中的另一项应用。心理健康领域的研究认为,聊天机器人这一辅助治疗模式是可行且能被患者接受的。并且相比于电话沟通,参与者更倾向于与机器人沟通。在遗传咨询领域,目前聊天机器人被应用于回答患者的提问并收集信息,以便于预约后续与遗传咨询师的会面;或可被应用于收集健康信息、构建家系图并进行风险评估。
四、人工智能目前的局限和面临的挑战
虽然AI技术具有强大的处理复杂数据的能力,但当应用于人类健康数据时,受过训练的AI系统可能导致虚假的、不符合伦理或带有歧视的结论。AI算法的开发需要考量许多监管和伦理方面的问题,这些问题涉及用于训练AI算法的数据的来源和隐私、算法本身的透明性和通用性、算法升级带来的数据更新的监管过程以及错误预测的责任归属等。如在数据来源方面:开发AI的企业是否能正确评估数据的使用条件?企业是否遵守相应地区或运用群体所在地区的数据保护条例?数据是否包含遗传信息等涉及特殊监管规定的敏感信息?在AI产品开发方面:AI训练数据是否能准确代表来源人群?是否有样本代表性?开发者是否能解释算法的逻辑?产品的安全性和有效性是否有证据支持?在临床应用方面:AI系统的使用是否已告知患者?靶向治疗方案是否公平地面向所有的患者?何种监控机制被用于评估产品的表现情况?当发生预测错误时,由谁承担责任?
这些问题的解决需要从以下几个方面进行:
1.透明性
在科技界和医疗界共享AI模型的各项具体信息,包括源代码、模型权重和元图等。算法内在逻辑应透明。医师本身应掌握所使用的AI系统的基本运行机制,才能向患者提供更好的解释,从而提高AI的可信度和可接受度。AI的自动化属性不能减弱患者的自主权和决策的参与度。此外,必须明确使用AI发生的不良事件的责任归属。当人工智能决策失误引发医疗纠纷时,错误的归责和法律责任的归属亟须相应的法律体系来规范。
2.隐私保护
开发者在数据处理的每个阶段都应该密切关注伦理要求和监管条例。数据的使用和再次使用都应该注意数据来源和知情同意。不同的数据来源可能受不同地区的法律条例保护。
3.可解释性
改进解读模式,使得预测结果的解读易于患者的理解,保护患者的自主权和决策权。在临床应用中,AI系统不仅要回答“是什么”的问题,也要提供“为什么”的解释,从而利于医师和患者对于结果的理解和对决策的考量。
4.公平性
应加强对算法偏差的监管力度,并开发有助于解决机器偏差的工具。用于训练和验证AI模型的数据应符合伦理规范,避免偏见,保证公平性。训练数据本身应具有样本代表性,并反映真正无偏的流行病学情况。在基因数据或其他健康数据中,部分子结构是由于危险因素和健康结局的不同因果关系而产生,但部分子结构是因社会经济地位、文化习俗、样本代表性不足或影响医药资源可获得性的因素而导致的。因此,在训练AI系统时,应注意区分不同影响因素带来的偏倚,从而保证预测结果的公平性。
AI系统在多种医疗应用中展现了令人瞩目的性能,部分产品已获得美国食品药品监督管理局(Food and Drug Administration,FDA)的批准,中国AI产品的相关政策制定和注册审批也在逐步实现突破。基因组数据等大数据集的不断涌现,加上AI算法及GPU系统的升级,推动着AI技术的不断进步。卷积神经网络和循环神经网络适用于临床遗传学的多项工作。目前,在临床遗传学中最具有前景的AI应用,是从图像、EHR或其他医疗资源中提取表型信息,指导后续的遗传分析。除此之外,AI的重要遗传学应用还包括变异识别、基因组注释、变异分类和变异功能影响预测。测序技术的发展使得基因组数据得以大规模生成,但未来仍需要积累大量表型数据,使AI技术能在临床遗传学中有更广泛深入的应用。最后,完善AI技术的透明性、可解释性、公平性和隐私保护问题将有助于提高AI技术的可接受度和信任度,扩大其应用范围。
(余 岚)