发布日期:2016-08-15
艾吉泰康正在努力打造高通量序列设计引擎。我们自己有些感悟,就是探针引物在设计环节都是序列,在高通量的序列特征的分析,或者说设计环节当中有很多的共性的东西。包括我们在基因捕获里面,无论是高通量探针还是引物设计,包括在其它的序列特征提取当中很多规则是一样的。所以我们可能会开发出越来越多的设计的应用,并且做到线上为大家免费提供服务。
实际上在互联网的领域,我们把这个定义为一种SaaS服务,就是一种非常专业的,高通量特征序列提取的一种业务流程。我们可以和专业的云计算的PaaS去配合(比如聚道云等),实际上我们今年一直在这个方面努力。因为它不只是一些生物的问题,还牵涉到一些算法优化,还有硬件的事,确实花了一些的时间,期待能和更专业的IT背景的人或企业合作。在序列设计的领域,当时我们已经积累发表了一批SCI文章和专著,引用率和使用率颇高。
基因捕获在技术原理上其实特别简单。液相杂交法中首先将常规样本的基因组打断,然后根据测序仪器加接头。我们设计的探针,会跟DNA随机打断的片段特异地互补结合,最后通过磁珠把捕获的目标区域吸附下来,吸附下来再经过洗脱、纯化、富集上机测序。可能不同的公司在这个里面有些细节不一样,但是这些公共步骤都是一样的。多重PCR就更简单,实际上它在实验环节中只需经过一轮或者两轮PCR,直接得到产物就上机测序了。这个里面难点还是在设计,以及实验条件的磨合上,实验步骤真的是特别简单。
从解析这个角度上给大家交流一下,里面有哪些关键参数来评判基因检测的好坏。第一个当然是有目标区域的测序量,覆盖度,数据的均一性,代表着是它的可信度,也就是准确度。所谓的均一性,形象一点比喻,你看reads的分布图跟山峰一样的,有高有低的那肯定就不均匀,在峰底的时候准确度就特别低,峰顶是过度的高。还有一些标准就是重复率、捕获效率,以及一些常规的测序质量等等。这个捕获效率我做了一个公式,讲的比较直观一点。比对到目标区域的有效数据量除以比对到所有的人基因组区域的有效数据量就是捕获效率。有效数据量是什么呢,你测序的时候会有重复率,用1减去这个重复率就是不重复率,不重复的达到QC标准比例再乘以原始数据,就是这个有效数据。然后平均深度我们是这么定义的,比对到目标区域的有效数据量除以panel区域的大小来计算平均深度。
重复率这一块我们的去重标准是非常严格的,只允许唯一一条,其它的都叫重复。目前部分企业筛选标准比较低,允许三条,会对检测结果造成很大的解读隐患。下一页展示的是在panel检测中可以通过增加测序深度提高准确度,你看在五十层的时候这个是一个纯合突变,到三百层的时候就被发现是杂合突变,明显表明测序深度能够部分解决准确度的问题。
靶向捕获的研究和临床应用
下面我讲一些具体的应用案例。捕获测序首先在基础科研上有一些应用,最近我们探索地跟一些研究所在基因组编辑的脱靶效应优化上面做的一些合作开发,然后在单细胞测序上面,经过上游的细胞捕获,然后扩增,下游再接上基因捕获看看这个数据效果怎么样。
另外像液体活检ctDNA的这一块也是比较多的应用。另外其实我们刚才聊了很多的东西都是基于基因组的。举个案例,就是基因组编辑的定制化的全基因组脱靶优化方案,实际上它会有一些目标基因,我们会对这个目标利用靶向测序技术分析它的脱靶效应,看能不能通过靶向测序把它给鉴定出来,然后优化实验的过程。首先它会有一些目标基因,比如说这个案例里面,就是DMD基因。我们会在全基因组范围内预测它的脱靶位点,然后从筛选这些位点进行编辑实验,实验结果会通过表型,无论细胞表型还是动物表型去查看。这时候其实还不能确定脱靶位点,然后可以通过把和表型关联的预测的这些脱靶位点进行捕获测序,精确地告诉大家,基因是否在其他的基因组区域上脱靶了,脱靶的基因型是什么?
另外在临床基因检测中应用最多的是SNP的发现和检测,同时其它基因组变异的筛查研究也特别多。我们举一些案例。这个是一个遗传病的panel,可以用来发现拷贝数的变异,右上直方图是父亲、母亲、孩子的拷贝数体现,能够发现显著的差异,蓝色的区域就是拷贝数的变化的量,这个能够确定拷贝数断点的位置。基因捕获技术还可以发现特别大片段基因的缺失,有些常规的分子生物技术还做不到。
这是展示的胰腺癌的一个样本中拷贝数变异,ERBB2的基因扩增是跟很多靶向药物用药相关联的,有助于协助医生判断对患者进行异病同治。
这个是我们做的一个panel,发现中国人群前列腺癌样本中的基因融合现象,因为基因融合有的时候比较复杂,它的融合点准确位置并不确定,而且有一些文献报道的也是欧美人群的数据。当你不知道这个融合点位置的时候,在设计引物和探针的时候非常困难。实际上这个是发现了一个比较典型的三基因融合的现象,就是Gene-1、Gene-2,包括这个ETV1的一个3基因的融合,在一代测序上面得到了验证。
这个是食管癌的panel检测案例,文献报道的有一个C1QTNF3-AMACR的基因融合。但是我们还发现了另外六个新的融合事件。Gene3和MECOM的融合,Gene4和VMP1的融合。这个也是刚才发现了更多复杂的融合的变异结构,通过生物信息可以把他们的基因的结构给复原出来。
艾吉泰康做了很多上游panel设计和开发,因此我们对panel基因检测本身的技术参数非常了解,我们也发现了产业内现存的一些质控问题。只有做好指控,并对技术指标的解读标准非常清晰,才能真正做到精准检测。
基因检测上游的测序技术,包括基因捕获技术在国内都处于发展早期和追赶期,行业标准也没有形成规范。我们长期和行业内企业合作,都是从原始数据到生物信息的各个层次的数据的整体交付,这样数据质量问题永远可追溯。跟我们打交道的大部分都是企业内的专业技术人员,好多像郝向稳先生、田埂博士这样的。他们会第一时间给我们反馈数据里面的问题。但是我们在做临床基因检测的时候,大部分的企业都是发布临床报告,医生并不能发现其中的数据质量上的一些瑕疵。所以需要我们这些从业者以职业道德去做好质控,每个技术指标标准都要非常清晰。
其实目前基因检测市场上还是良莠不齐,有很多由于数据质控造成的问题。这个案例就是测序质量的问题,测序质量低不筛除掉直接发报告导致了假阳性。测序质量不高的只有一个办法,就是重测。覆盖率,这个就是panel的问题,捕获区域完全没有覆盖完整,然后还直接去发临床报告,直接认定为阴性就传递给医生了。我们重新设计了这个panel保证了覆盖率,发现覆盖到的这个区域应该是阳性结果。这个是测序深度的问题。
刚才说到测序深度不够的时候,一开始是纯合突变,但是增加测序深度你会发现变成杂合突变了。这个数据可信度是指的均一性,当这个均一性不高的时候,我刚才做的一个比喻,它是像山峰一样,当你刚好你关注的突变点位于这个山峰的谷底的时候,这可能就是一个错误的结果,你去拿去验证,跟它的结果刚好相反。这个均一性,如果一个panel在一层、四层、十层、二十层的时候平均覆盖度分别是100%、100%、99%、99%这个下降程度,说明这个panel均一性很好,但如果覆盖度分别是90%、80%、70%、60%这个下降程度时,一般达不到临床级的应用,到不了95%以上的话可能都是要直接重做的。还有这个重复率的问题,这个结果重复率非常高,这个公司在做生物信息分析的时候的去重率标准放的特别宽,有了三条以上的重复它才去重。就会造成什么呢?他们真实的测序深度是假的,间接地造成了实际上因为重复率比较宽松,给你报告的达到100层了,但实际上才测了30层。30层就回到刚才那个问题,有的区域可能就不准吧,你测出来也是假阴性,这个机率非常大。所以最好还是在这些指标上要非常清晰的严格指控。
精准医疗基因检测是否精准?在中国目前还是一个任重而道远的问题。我们各个环节的从业者必须从技术创新、技术标准、技术质控,到后续的技术服务上用心去做,打造中国质造,才能达到真正的精准检测的终极目标。
服务模式探讨
我们提了一个概念叫“中国质造”,不光是能生产,最重要的是质量,在医疗应用场景中,我们技术指标可能达到了99.9%,但那0.01%到患者那儿,对他个体就是100%。这是我们的试剂盒及试剂盒里试剂的组成。过去一年我们和国内近80家机构订制开发了近一百个panel。
目前相对于那些国际竞品,我们现在的技术指标能够做到跟他们基本上不分伯仲。我们的采购链、制造基本都在国内,订制开发速度比较快,同时试剂盒交付时严格质控,同时交付实际捕获和NGS测序的质控结果。送测检测服务一般根据你的时间和不同成本的要求,从两周到一个月都有相关的服务。第一种就是说试剂和采购,基因列表提出来,我们通过设计开发质控完了以后,把试剂盒交付给大家,然后通过标准的protocol在自己的实验室进行操作。第二个合作模式是新技术的合作开发。就是因为有些产品比较新,确实我们标准服务里没有,但是我们对任何的产品开发都是一种比较开放的合作态度,以技术开发的形式进行合作。第三就是服务,你也可以送样服务,目前我们的测序通量还比较大,能够协助大家把时间和测序的成本降下来,测序成本优势比较明显。
来源:贝壳社