Hi~我是GRT研究员雷雷,感谢好奇心把你带到这里。
我会告诉你:从收到你的唾液,到为你提供570万+基因位点数据,20万+字解读报告,整个过程中,各色DNA都做了哪些事。整个过程会比较硬核,不过我对你有信心,一定能耐心读完。
1我的报告是怎么来的?2怎么保证报告是我的,各色DNA如何确保不搞混唾液样本?3除了基因检测结果,我还能通过这份报告得到什么?4以「注意力」为例,手把手教你看懂自己的报告。
从一管唾液到570万基因数据,中间究竟发生了什么?
体验各色DNA的基因检测解读服务,从收到一份唾液采集装置开始。
接下来的流程一句话概括就是,你在收到的装置里吐2ml唾液,回寄给我们,20个工作日后,你就会在手机上看到自己的解读报告。
那么从一管唾液到570万基因数据,中间究竟发生了什么?
你可能会想知道为什么不是血液、毛发而是唾液?
唾液中有丰富的口腔上皮细胞和白细胞,这2种细胞中都有DNA,并且取唾液非常安全和便利。所以检测DNA的第一步需要你采集自己的唾液寄给我们。
实验室收到大家的唾液,提取DNA后会进行质检。比如万一调皮的用户把纯净水寄给我们怎么办。DNA的量大且杂质少则合格,如果不达标就会通知大家重新采样。
(2)让你的DNA和芯片杂交
之后经过一系列复杂的处理,你的DNA来到了最核心的一步——把你的DNA点在芯片上。Illumina芯片长这样,尺寸为8.3cmx2.5cm。一张芯片24个格子,一次能检测24个人。充分杂交处理后,扫描芯片后即可读出你的DNA数据——大约有70万左右的基因位点,平均的数据检测准确率达99%以上。
(3)扩展数据怎么来的?
除了通过芯片检测得到DNA数据,各色还额外免费提供500万左右的扩展数据。扩展数据是算出来的。相当于你只需支付75万位点的检测费用,但能获得570万+位点数据。
这里面的原理,我觉得可以用一道数学题来解释。已知某个人的70万个检测位点,而这70万个点和另外未知500万个点之间,存在X,Y,Z等等关系,求未知500万个点是什么。目前我们使用的算法模型是HMM(HiddenMarkovModel),即隐马尔可夫模型,平均数据准确率为98%左右。
各色DNA如何确保不搞混唾液样本?数据质量控制的步骤有哪些?
有的时候大家会担心,我的样本会不会搞混了呀?
接下来我会向你介绍各色DNA数据质控的过程。除了实验过程中的流程标准化和质量控制,我们拿到数据后还会做这些事情:
第一步,卡检出率,生物实验不可能百分百,有些位点可能随机检测不出来。各色的标准是下机原始数据最多只能有2-3%的缺失,一般的学术研究标准是5%的缺失。
第二步,核对性别。因为男性有1条X染色体和1条Y染色体,女性有2条X染色体且没有Y染色体,所以我们可以根据基因数据判断性别。然后我们会把数据里获得性别信息与大家在绑定时候填写的性别对比,一致即通过,不一致则需要和大家确认。所以,你一定记得认真填写绑定信息,这有利于获得更好的数据。在这个过程中,我们也帮助过一些用户发现自己的性染色体可能存在问题。
第三步,算重复率。所有数据都会进行两两比较,如果发现重复率过高,就会标记为需要确认数据。这个过程中,我们发现了各色DNA用户中很多对同卵双胞胎。
除了这些,每批次我们还会随机选取数据,针对祖源和亲缘结果(尽管这个我们还没上线)让小助手老师帮助我们确认。
这一套流程下来,我们对自己的数据质量还是非常有信心的。这里强调一下,你可能没有意识到的、但非常重要的问题:基于数据的解读可以一直优化,但是DNA数据只检测一次,所以数据质量是一定要有保证的,这取决于严格的数据质控,以及大家的配合。譬如:不小心混入了猫猫狗狗的唾液、接吻之后采样这些都会导致数据不过关,重新采样。这些你都能在包装里操作指南中获得正确的采样tips。
各色解读报告的研发哲学是什么?
数据质量达标了,接下来你就会和专属自己的解读报告见面啦。
每一个特征的详细解读报告的结构是:1+4
这个用户体验流设计,是基于「从了解自己到改变自己」这句各色愿景。我们不仅想告诉你是什么,还希望告诉你为什么,以及科学了解自己的思路是什么样的:
1代表一个性状的特征定义,一切从科学定义开始4代表一个性状解读中的4个板块:基因解读,生活经历,现状评估和行动建议,我们希望帮助你了解「基因和环境如何让你成为你」,「如何变成更好的你」
为什么需要先说科学定义?很多大众理解的概念和心理学概念是混淆的。
内外向的区分是:是独处更能获得能量,还是从与他人的社交活动中获得能量。前者是内向,后者是外向。
社恐的人不是不喜欢社交,恰恰相反,他们太在意自己在社交中的表现了,总觉得别人时刻在注意和评价自己的一举一动,因此会有些「动作变形」。所以会存在喜欢社交(外向),但是在社交中很太过于在意的自己的表现,而表现的有点异常(社恐)的情况。
所以,要正确了解自己的某个特点,需要从这个特点的定义开始理清。
为什么会分成这四部分?
那现在的你又是什么样子的呢?我们提供了科学的测评工具,可以更好了解自己的现状。第四部分是一些针对性建议,如果你希望有所改变,可以参考它。
那,我们开始看报告吧。
拿我自己的「注意力」检测报告来看吧。我的基因检测结果是「较易分心」,现状是「比较专注」。
我的基因标签是「较易分心」是不是说明,我生活中一定就是一个注意力不集中的人呢,不一定。「较易」这个标签是「从目前的研究和各色检测的位点看,我天生在生活中分心的可能性更高一些」的缩写。
知道了自己的结果,我们希望你能对这个特征有更全面的理解——即「注意力」的科学定义究竟是什么。很多时候你的理解和科学的定义,也许差别很大。所以这部分一定要重视,很可能会刷新你很多认知。
了解了科学定义,下面这个等式,我们是想告诉大家,在一个群体水平,基因大概能影响注意力多少。这里涉及到「遗传率」这个概念,它是一个比较抽象的数字,指的是某群体的注意力差异,基因可以影响多少。
再往下看是比较核心的,也是比较难以理解的——即各色在你的原始DNA数据中,选择了哪些位点来推断你注意力的先天倾向,这些位点都有哪些效应:
比如基因位点rs3746544,rsxxx是这个基因位点的名字,数字没有任何实际意义。这个位点在20染色体,这个基因上。在所有人群中有TT,TC,CC三种类型,我检测出来是TT这个类型。通过文献调研,我们发现携带T的人注意力更不集中。
这个文献结论怎么来的?简单来说就是,研究者会找很多TT,TC,CC的人,让他们来做注意力任务,注意力越好,得分越高。然后,分别统计这三类人在注意力得分上的差异,发现有T的人表现更差。
单个位点的效应我们搞清楚了,最后,我们按照各色自己的算法把你的这些单个位点的效应综合起来,你会得到一个分数,相对应的也就有了自己的标签,以及在人群中的位置。
大家注意到我刚说了各色DNA的算法,各色DNA的算法有什么不同么?我这里就不展开说了~
但如果你已经有一定专业背景,可以在各色DNA官网(gesedna.com)底部科学说明找到我们的研发白皮书。我们所有研发过程都公开透明化,目的就是让愿意了解的用户都可以参与进来。
那有这样的先天倾向,你在生活中更可能有什么表现呢?换句话就是,你在不同的生活场景中,如何理解自己的先天倾向。
当然看完解读后,非常希望大家能给我们一个反馈。指引我们更好地优化这个解读。
在基因解读这一部分,我们也着重强调了目前结果的一些局限性。各色DNA能做的。是结合你的检测数据以及最新的研究成果,给你提供解读服务,随着研究发展,报告内容会持续地调整和优化,也希望你能在充分了解「科学局限性」的前提下,来理解自己的报告内容。
除了基因部分的解读,我们还有「生活经历」这个板块,和基因位点一样,这部分的内容全部来自已有的科学研究,并且我们还根据统计参数,做了影响强弱的划分。
我们强调:基因和环境共同影响了你,所以生活经历和基因同样重要。
虽然目前基因解读和生活经历还是2个独立的板块,「无机」的融合在一起,但是我想说这只是一个起点。希望之后能在研发、产品和交互上,真正实现基因和环境融合,给大家提供更好的认识自己工具。
接下来,「现状评测」则会提供专业的测评工具,帮助大家测量自己的现状。
最后,我们还提供了12条行动建议,为想改变自己注意力的人提供有科学文献支持、并且具体可行的方案。
整个看下来是不是信息量有点大?各色DNA检测报告的逻辑可能的确有些复杂,不过我相信你是有能力get到的。
最后划重点:各色DNA倡导的是「用科学的方式看待自己」,而我们在做的也与此一致——为对自我好奇的年轻人提供「基因+心理学研究」的工具,帮助他们更全面的认识自己,陪伴他们成为更好的自己。
如果你恰好认同我们的理念和产品,那么来各色DNA就对啦。
如果你还没有在各色做过DNA检测,可以先看下我们的示例报告,先了解一下一份完整的报告长什么样子: