NCBI介绍

随着ncbi数据库各种资源的涌现,NCBI已经成为科研工作者必不可少的工具了。那么各位小伙伴们,你能说出NCBI有多少数据库吗?有哪些实用的工具吗?不知道的就进来看看吧!

1NCBI数据库更新进展

1.1PubMed搜索功能的增强

1.2primer-BLAST分析工具

1.3BLAST的改进及更新

“BLASTtree”结果输出模式可以测量不同序列间的距离,自动收起亚类信息等。现在,可以以Newick格式或Nexus格式下载BLASTtree结果,也可以在进化树图中选择任一节点重新构树。最后还要向读者介绍ncbiblast的一个新网址:URL:blast.ncbi.nlm.。NCBI建议读者都使用这个网址登陆NCBIBLAST,因为该BLAST使用更多的计算机进行分析,也具有更强的系统容错能力。

1.4EntrezGene改进及更新

基因组注释工作当中有一项重要的工作就是定位基因重叠群序列(contigsequences),即在染色体中找出某个基因的定位。实际上基因组测序工作就是将许多基因重叠序列彼此拼接,最后拼出“完整(中间会有一些缝隙)”的基因组图谱。这项工作可以直接将某个基因与某段基因重叠群序列对应起来,但不能直接将该基因与染色体联系起来,而这恰恰是生物学家最感兴趣的地方。因此,为了能让用户在搜索基因的同时,也能了解到一些该基因在染色体中的定位情况,EntrezGene推出了新的“Limits”服务,用户可以使用该服务在基因组范围内进行基因搜索。用户可以在某个物种染色体的某个区域里进行基因搜索。

EntrezGene会按以下三种顺序对搜索出的基因进行排序:

1.按照基因名排序。

3.按照基因重要性排序,即按照该基因在PubMed、Homologene、ProteinClusters、OnlineMendelianInheritanceinMan(OMIM)或Bookshelf中文献数量的多少进行排序。

2.ENTREZ搜索系统

2.1Entrez

2.2MyNCBI

3BLAST比对系统

3.1BLAST

BLAST默认的比对信息数据库包括NCBI中的人类基因组数据库和人类RefSeq数据库。比对之后,BLAST会按照评分高低、序列相似度对结果进行排序,另外BLAST还可以对小鼠数据库以及其它基因组数据库进行比对。

蛋白质序列的默认数据库包括GenBank非冗余数据库、RefSeq、Swiss-Prot、PDB、PIR和PRF等。此外,还包括这些数据库下的子数据库以及其它一些专利数据库和诸如核酸数据库等环境样品数据库(environmentalsamples)。

3.2BLASToutputformats

标准的BLAST输出格式包括默认的配对比对格式(defaultpairwisealignment)、搜索定位的多序列比对格式(query-anchoredmultiplesequencealignmentformats)、简单的可解析的HitTable格式以及按照分类学给出的报告格式等。一种叫做“按照同一性进行配对(Pairwisewithidentities)”的格式能更好地突出目标序列与检索序列之间的差别。而WebBLAST中提供的树状浏览格式则会按照搜索出的目标序列与检索序列之间的距离不同将这些目标序列进行聚类,形成一幅树状图来显示结果。BLAST比对之后给出的每一种格式的比对结果都会有一个分值和E值。用户也可以设定一个E值的阈值来筛选比对结果。

3.3MegaBLAST

MegaBLAST也是一种BLAST程序,不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。使用者通过网页使用MegaBLAST进行批量比对操作,这比使用标准的BLAST程序要快10倍。MegaBLAST在NCBI基因组BLAST页面下是默认的搜索工具,借助它能对增长迅速的TraceArchives数据库和标准BLAST使用的数据库进行快速检索。NCBI还为跨物种核酸序列快速搜索提供了DiscontiguousMegaBLAST,它使用非重叠群字段匹配算法(noncontiguouswordmatch)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。

3.4GenomicBLAST

3.5NCBI在线BLAST用法

首先进行Blast类型的选择:

blastp:将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;blastn:将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;blastx:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;tblastn:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;tblastx:先将待查询的核酸序列和核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后再将两种翻译结果从蛋白质水平进行查询。

基本步骤如下:

1)进入在线blast界面,可以选择blast特定的物种(如下)。不同的blast程序上面已经有了介绍。这里以常用的Blast中nucleotideblast作为例子。

Human人

Mouse小鼠

Rat大鼠

Arabidopsisthaliana拟南芥

Oryzasativa水稻

Bostaurus牛

Daniorerio斑马鱼

Drosophilamelanogaster黑腹果蝇

Gallusgallus乌骨鸡

Pantroglodytes黑猩猩

Microbes微生物

Apismellifera蜜蜂

选择相应的物种做BLAST即可!

2),粘贴fasta格式的序列(可以是多条奥!!)或使用Accessionnumber(s)、gi(s)(注意仅使用数字,不加上标志符gi)。选择一个要比对的数据库,如果是人和鼠则进行相应的选择,否则选择Others中的nr/nt。关于数据库的说明请看NCBI在线blast数据库的简要说明。其他选项不是必选的,如JobTitle就是这次比对的名字,随便起一个即可;Organism为物种,可以填入你想比对的物种(分类单元如greenplant等)的名字(拉丁名字,输入几个字母后会出现索引的)。第一个直接填入框中,往后需要点击一下加号后才能继续添加,选择Exclude就是与这些物种以外的物种序列进行比对。

另外对于LimitbyEntrezQuery这一部分也为选填内容,若填写可以进行更为有效的限制,如可以限制分子类型、序列长度等等。具体限制内容如下:

proteaseNOThiv1[organism]这将会将Blast检索限定在proteases,但不包含HIV1.1000:2000[slen]对于核酸这将会将检索的序列的碱基长度限制在1000to2000bp,对于蛋白质,则将残基个数限制在1000to2000。

3)blast参数的设置。注意显示的最大的结果数跟E值,E值是比较重要的。筛选的标准。

4)注意一下你输入的序列长度。注意一下比对的数据库的说明。

5)blast结果的图形显示。没啥好说的(注意标题157BlastHits意思为共有157条比对上的序列)。

6)blast结果的描述区域。注意分值与E值。分值越大越靠前了,E值越小也是这样。在下面图中可以在左边的复选框中选择,然后点击download可以一起下载这些序列。下载格式一般选择FASTA(completesequence)格式较好。

7)blast结果的详细比对结果。注意比对到的序列长度。评价一个blast结果的标准主要有三项,E值(Expect),一致性(Identities),缺失或插入(Gaps)。加上长度的话,就有四个标准了。如图中显示,比对到的序列长度为1299,看Identities这一值,才匹配到1264bp,而输入的序列长度也是为1509bp,就说明比对到的序列要长一点。

附:

E值(Expect):表示随机匹配的可能性,例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。通常来讲,我们认为E值小于10-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会S值比现在这个要高的话,那么不E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。但是E值也不是万能的。它在以下几个情况下有局限性:

1)当目标序列过小时,E值会偏大,因为无法得到较高的S值。2)当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gapscores就非常有用。3)有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。

E值总结:

E值适合于有一定长度,而且复杂度不能太低的序列。当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。当E值小于10-6时,表时两序列的同源性非常高,几乎没有必要再做确认。

一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。

Score得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1299个碱基中只有35个不配,其他97%相同;

8)Blast的三个程序

1)MEGABLAST常被用于鉴定核酸序列。

MegaBLAST是一种BLASTN程序,主要是用来在同一物种非常相似的序列(相似度大于等于95%)之间同源性的比较。鉴定某一段核酸序列是否存在于数据库,最好的方法就是选择MEGABLAST。当然,BlastN/MEGABLAST/DiscontiguousMEGABLAST,都可以完成这种事情。但MEGABLAST就是特别设计用于非常相似长序列之间的比对,可用于寻找查询序列的最佳匹配的序列。总之此程序主要用来鉴定一段新的核酸序列,它并不注重比对各个碱基的不同和序列片断的同源性,而只注重被比对序列是否是数据库未收录的,是否为新的提交序列或基因。速度快用于同一物种间的。

2)DiscontiguousMEGABLAST

用于查找不同物种的相似的核酸序列,而不是查询相同的序列。

DiscontiguousMEGABLAST,用于跨物种核酸序列快速比对。它使用非重叠群字段匹配算法(noncontiguouswordmatch)来进行核酸比对。DiscontiguousMegaBLAST比blastx等翻译后比对要快得多,同时它在比较编码区时也具有相当高的敏感度。但是需要指出的是,核酸与核酸之间的比对并不是发现同源蛋白编码区域的最佳方法,直接在蛋白水平用Blastp比对更好。这是因为密码子的简并性。blastn比MEGABLAST更为敏感是因为它使用一个短的默认字长11.所以blastn从其他物种寻找同源性比MEGABLAST更好。blastn字长可以从默认值调整至7来增加检索的敏感性用相同字长检索在discontiguousMEGABLAST的效率和敏感度要高于标准的blastn。

需要重点指出的是核酸序列的相似性检索并不是在其他物种中发现同源蛋白编码区的最好的方法。要完成这项任务最好要通过蛋白质水平上的相似性检索。可以采用directprotein-proteinBLAST和translatedBLASTsearches的方法进行。

3)BlastN运行缓慢,但是允许将字长降低到7个碱基,增加检索的敏感性。

9)Filter(较少用)

Filter(Low-complexity)

过滤器(Filter):过滤器可以屏蔽查询序列中低成分复杂性(LowCompositionalComplexity)片断(所谓低成分复杂性片段指四种碱基出现的机会不均等,往往是某几个碱基连续出现如此序列:CGGGGGAAAAAAAAGGGGAAAAAAARAAAAMR)。它只能过虑待比对的序列及其转录产物中的低成分复杂性片断,不能过虑数据库中存在的序列中低成分复杂性片断。用户可以在BLAST和BLAST2.0的高级检索中选择相应的过滤程序以消除对检索结果的干扰,如不用过滤功能则选择“NONE”。但是在BLAST和BLAST2.0基本检索中,因为,系统对于不同的BLAST程序设定了默认值,例如对于blastn程序,其默认值为“DUST”,其可以消除统计学上有重要意义但生物学上没意义的区域的对比,使输出结果只呈现在生物学上有意义的区域。而对于blastn以外的其他程序,默认值为“SEG”,所以用户只须选择用不用过虑功能,而不必设定过虑程序。有时在与WISS-PROT和refseq数据库中进行比对时SEG程序未起作用,这也是正常的。

4文献资源

4.2PubMedCentral

PubMedCentral是一个收录生命科学领域同行评审期刊(PeerReviewedJournals)文献的数据库,现收录超过160万条全文文献,并且仅去年一年就增长了51%。而且,包括《核酸研究》(NucleicAcidsResearch)在内的480多种期刊会为PubMedCentral提供全文文献。

所有参与PubMedCentral的出版商也都必须在文献出版后12个月之内免费为PubMedCentral提供全文文献。由于NIH于2008年4月7日开始执行向公众免费开放使用的政策,故而PubMedCentral也必须免费向公众开放使用。如此一来,用户使用Entrez就可以搜索到PubMed和PubMedCentral中的所有文献信息了。

4.3NCBIBookshelf、NLMCatalog以及Journalsdatabase

NCBIBookshelf通过与作者和出版商合作,收录了86种在线教科书和生物医药类图书。NCBIBookshelf作为独立于Entrez数据库的一个单独数据库,它里面的信息也可以通过文本搜索或Entrez数据库,例如PubMed、PubMedCentral、Gene和OMIM中的链接搜索到。NCBIBookshelf中的图书不是象普通图书那样一本一本的存放的,而是按照内容将它们分成了230,000个不同的部分、章节进行储存的。用户浏览其中一个内容的时候也可以跳到该书的其它部分或者直接搜索这本书中的特定内容进行阅读。

Journalsdatabase(期刊数据库)包含了每一个Entrez数据库中的所有期刊信息。目前共收录有超过22,000条记录,期刊数据库为每一份期刊都建立了ISO刊名缩写索引、出版日期索引和NLMcatalog链接索引以及Entrez中引用该期刊中文献的索引。

5.1数据库

5.1.1Gene

Gene数据库与PubMed中最新引文之间的链接是由基因注释人员负责维护的,这项功能也被称作GeneRIF。完整的EntrezGene数据集以及物种特异性的数据亚集可以在NCBIFTP站点中的NCBIASN.1中找到。一种可以将NCBIASN.1格式转化成XML格式的名为ene2xml的软件也可以到ftp.ncbi./toolbox/ncbi_tools/converters/by_program/gene2xml下载。

5.1.2UniGene和EST

UniGene从属于GenBank的一部分,专门收集转录体序列数据,包括EST序列和非冗余序列,每一条UniGene记录都代表一个潜在的基因。UniGene收录了GenBank中来自所有物种的EST序列。UniGene数据库每周都会更新EST信息,每两个月会更新序列信息。

5.1.3HomoloGene数据库

5.1.4ReferenceSequences

用户可以通过三个Entrez数据库——Nucleotide、EST和GenomeSurveySequence(GSS)(这三个数据库在E-Utilities中分别称作nuccore、nucest和nucgss)搜索到GenBank中的序列。EntrezNucleotide数据库含有除了收录之外的GenBank中所有的序列,它还收录有全基因组鸟枪法测序序列、第三方注释序列(ThirdPartyAnnotationsequences)和Entrez结构数据库中的序列。对这些记录中编码序列概念上的翻译信息都收录在了Entrez蛋白质数据库中。EST数据库收录了GenBankEST中的所有数据和没有生物学注释信息的“单分子识别首次通过(first-passsingle-read)”的cDNA序列。同样,GenBank中的GSS数据库也收录了没有生物学注释信息的单分子识别首次通过的基因组序列。

5.2分析工具

5.2.1ORFFinder、Spidey和Splign

NCBI提供了几种分析工具可以帮助用户在基因组内发现编码序列。OpenReadingFrame(ORF)Finder程序可以将一段DNA序列按照6种进行翻译,然后返回某一段DNA序列中可能的ORF。

Spidey工具将一组真核生物的mRNA序列与一个基因组序列进行比对,使用4种物种的RNA剪切模型(脊椎动物、果蝇、秀丽隐杆线虫和植物)来预测RNA剪切位点。Splign是一种通过比对cDNA和基因组序列来发现剪切位点的工具,它可以在测序出现错误的情况下使用,还可以进行跨物种的比对。Splign使用了一种Needleman-Wunsch算法,与区域化算法(compartmentizationalgorithm)一起使用能发现可能的基因位点。用户可以在Splign网页上下载单独为大批量分析而专门设计的Splign工具使用。

5.2.2ElectronicPCR(e-PCR)

不同的科研小组使用他们各自的方法研究同一物种基因组时,对于基因组中的基因定位可能会得到相似但不完全相同的结论。这样,就会对其它的科研工作者造成困扰。在所有的模式生物中,目前对人类和小鼠的基因组序列研究得最多也最透彻,因此它们最适合用来作为“标准的(consensus)”基因注释的“实验材料”。

CCDS数据库计划(www.ncbi.nlm./CCDS/)就是由NCBI、欧洲生物信息学研究院(EuropeanBioinformaticsInstitute)、韦尔科姆基金会桑格研究院(WellcomeTrustSangerInstitute)和加州大学圣克鲁兹分校(UCSC)共同合作建立的标准的有关人类和小鼠基因蛋白质编码区的数据库,该数据库会不断更新来保持其高水准。用户可以在CCDS的网页上使用基因名或序列ID进行搜索,还可以链接到EntrezGene数据库、历史记录信息、转录体和蛋白质序列、MapViewer、EnsembleGenomeBrowser、UCSCGenomeBrowser和桑格研究院的VegaBrowser。用户可以到ftp.ncbi.nlm./pub/CCDS/下载CCDS序列数据。

6基因组信息

6.1数据库

6.1.1Genome

顺便介绍常用下在基因组地方:

NCBI下载。

1、进入NCBI,点击Assembly

2、输入要下载的物种名字,本处以小麦为例。输出结果如下:

以第2条这一版本为例进行点击查看如下:

4、点击下载你想要的GFF、基因组文件即可。

Ensemble

在网站最下方有EnsemblBacteria;EnsemblFungi;EnsemblPlants;EnsemblProtists;EnsemblMetazoa几个子数据库

我想检索小麦,故进入EnsemblPlants数据库,如下。点击选择物种Triticumaestivum

进入如下界面。

点击DownloadDNAsequence(FASTA)

另外还以一种简便方法就是直接从下面页面下载,网址是:

Phytozome(JGI)下载

1、注册账号

3、选择物种Triticumaestivumv2.2

4、点击Bulkdata

5、点击Okproceedtodata

进入如下界面

7、选择自己想要的基因组,蛋白质、GFF文件等下载(这里面还有最长转录本primaryTranscriptOnly*信息啊,在由可变剪接情况下不用自己处理奥)

6.1.2NCBITraceArchives

TraceArchives数据库储存了由凝胶/毛细血管测序平台(例如AppliedBiosystemsABI3730)测序(一代测序)获得的序列数据。

6.2分析工具及资源

6.2.1MapViewer

6.2.2ModelMaker以及EvidenceViewer

ModelMaker(MM)是用来构建转录模型的一种工具,它将通过由从头预测法(abinitiopredictions)预测出来的外显子以及通过与GenBank中的转录体数据库EST和RefSeq比对之后得来的外显子,与NCBI的人类基因组数据库结合在一起来构建转录模型。

EvidenceViewer(EV)则将所有能支持基因注释信息正确性的序列信息证据进行了归纳总结,它采用的是将RefSeq、EST等GenBank中的转录体信息与基因组重叠群进行比对的方法。EV显示了每一个外显子的详细比对结果,并突出显示了其中不匹配的部分。

6.2.3EntrezcancerChromosomes

6.2.4TaxPlot、GenePlot和gMap

6.2.5InfluenzaGenomeSequencingProject(IGSP)

IGSP(流感基因组测序计划)为研究流感的科研工作者提供了越来越多的序列资料,他们可以借此找出流感病毒致病的遗传性状。到目前为止,该计划已经得到了超过33,000条流感病毒序列。NCBI的流感病毒资源也和IGSP之间设有链接,还可以通过PubMed找到所有最新的有关流感病毒方面的文献和各种在线分析工具及数据库资源。这些数据库包括NCBI的流感病毒序列数据库(InfluenzaVirusSequenceDatabase),该数据库收录有GenBank和RefSeq中超过70,000条流感病毒的序列。科研人员借助流感病毒资源提供的各种工具能对超过83,000条流感蛋白质序列进行分析。Entrez的生物学数据库中还收录有超过100条流感病毒蛋白质结构信息和350多条有关流感病毒种群研究的资料。还有一种在线流感病毒基因组注释工具能帮助科研工作者们分析新发现的流感病毒序列并进行注释,然后将结果通过tbl2asn等上传工具递交给NCBI的GenBank数据库。

6.2.6EntrezProteinClusters

7基因型和表型信息

7.1基因型和表型数据库

7.2dbSNP

dbSNP数据库(单核苷酸多态性数据库)收录的是单核苷酸多态性信息,例如单个碱基的替换、缺失或插入信息。共收录有将近1800万条人类SNP信息和3300万条其它各物种的SNP信息。dbSNP数据库还收录确认信息、种群特异性等位基因频率信息(population-specificallelefrequencies)和个体基因型信息。所有这些信息都可以在dbSNP数据库的FTP站点中找到。

7.3供常规临床应用的数据库

7.3.1dbMHC

dbMHC数据库是有关主要组织相容性复合体(MHC)的数据库。它收录了各种MHC等位基因的变异信息,这些信息与器官移植以及个体对感染性疾病的易感性有非常重要的关系。dbMHC数据库收录了1000多条MHC等位基因序列以及这些等位基因在人群中出现的频率,还收录了人白细胞抗原(HLA)的基因型与全世界临床造血干细胞移植成功率之间的信息。

7.3.2dbLRC

7.3.3dbRBC

7.4OMIM

2016年9月22日,中国“诺亚方舟”——中国国家基因库正式投入运行。这是继美国、日本、欧盟之后,全球第四个建成的国家级基因库,也是目前为止世界最大的基因库。未来大众掌握自己的健康数据将不再是出现在科幻电影中的情节。

OMIM前世今身

OMIM数据库内容组成

上图是OMIM界面图示,我们能够看到OMIM数据库的组成部分,介绍如下:

Home:OMIM主界面

About:介绍OMIM信息

Satistics:包括3部分内容,即数据增加或删改信息、OMIN条目统计、OMIM基因图谱统计

Downloads:注册下载或API

Help:常见问题、搜索帮助、链接帮助和API帮助

ExternalLinks:外部资源链接

TermsofUse:如何在参考文献中引用OMIM

如何解读MIM编号?

被世界公认的MIM号如何解读,有何特殊意义?下面我们来解读MIM独特的六个位编号。

300000-399999:X连锁位点或表型

400000-499999:Y连锁位点或表型

500000-599999:线粒体位点或表型

如果是等位基因异质性,MIM编号后面会加上小数点和4位数字,指明变异。例如:HBB基因(141900)等位基因变异的MIM编号是141900.0538。

MIM编号前的符号代表什么?

*:基因

#:描述型条目,通常是一个表型,而不是特殊位点

+:条目包括已知序列基因和表型的描述

%:该条目描述了已经确定的孟德尔表型或含有未知的分子基础的表型位点

^:这个条目已经不存在,已经从数据库中移除或被移至其他条目中了

无符号:孟德尔遗传情况还未被明确,或者它从里一条记录的性状中分离的情况还不明确

如何使用OMIM检索信息?

OMIM支持多种搜索方式,详细介绍如下:

1、基础搜索方式:

1)输入MIM号或症状,搜索结果会按照信息匹配多少顺序一一列出。

2)使用+/-,如:输入+muscular+dystrophy-duchenne,搜索到的条目包括muscular、dystrophy但不包括duchenne。

3)使用引号,搜索短语,如:“+muscular+dystrophy”-“duchennegene”,搜索到的条目包括“musculardystrophy”但不包括“duchennegene”。

4)使用通配符?和*,?用于单字母匹配搜索,*用于多字母匹配搜索。如:输入dystroph*,系统会反馈dystrophia/dystrophin/dystrophic/dystrophy等的条目。输入dystroph?,系统会反馈dystrophin/dystrophic/dystrophy等,但是不会出现dystrophia的条目。

5)支持Boolean符号搜索,如:输入muscularANDdystrophyNOTduchenne,与+muscular+dystrophy–duchenne,系统反馈信息一致。

6)分组搜索,有时使用Boolean搜索,系统反馈信息不精确,不能迅速看见我吗想要查询的信息,这时我们可以采用分组搜索的方式。分组搜索使用小括号对输入信息进行分组,如:(muscularANDdystrophy)OR(duchenneANDgene)。

8)日期搜索:以年/月/日的形式搜索,可以加-、*等。

9)染色体位置搜索:输入1p36-p32,搜索结果显示位于这个区域基因对应的条目。

2、高级搜索方式,如下图所示。您可以限定搜索信息范围,精确搜索。

OMIM能够搜索那些信息?

以“+141900”为例,OMIM反馈信息如下图所示(搜索结果部分显示)。

详细描述信息:基因描述、基因结构、基因图谱、假基因、基因功能、生化化学特征、分子遗传学、动物模型、等位基因变异、临床提要等,另外还包括参考文献、条目创建日期、创建人、编辑史等信息。

如果您还想看更多信息,可以查看OMIM提供的外部资源链接。

7.5OMIA

OMIA(动物在线孟德尔遗传)数据库是一个有关动物(除了人类和小鼠)基因和遗传病的数据库,由澳大利亚悉尼大学(UniversityofSydney,Australia)的FrankNicholas教授等人建立。该数据库收录了超过2500条记录,其中包括文本信息、参考资料信息以及与OMIM、PubMed和EntrezGene这些数据库之间的链接。

8基因表达

8.1GeneExpressionOmnibus(GEO)

8.2GENSAT

GENSAT是有关小鼠中枢神经系统基因表达谱的数据库,这些数据是由美国神经障碍和中风研究院(NationalInstituteofNeurologicalDisordersandStroke)提供的。GENSAT储存了小鼠大脑的组织切片图像,这些组织切片中都含有各种标签,例如增强的绿色荧光蛋白标签等,这样可以根据标签的荧光强度来判断基因的表达量。GENSAT共收录了8万多幅图像资料,还提供搜索功能、资料下载功能、缩放功能和比对功能。

8.3EntrezProbe

NCBIProbedatabase(探针数据库)是一个公共的核酸试剂数据库,它可以提供试剂信息、销售厂家信息、探针有效性信息,还可以计算序列相似性。该数据库储存了960万条探针序列,这些探针可以分为31大类,包括用于基因分型的探针、发现SNP的探针、基因表达探针、基因沉默探针、基因测序探针等等。

8.4SRA数据库

SRA(SequenceReadArchive)数据库是用于存储二代测序的原始数据,包括454,Illumina,SOLiD,IonTorrent,Helicos和CompleteGenomics。除了原始序列数据外,SRA现在也存在rawreads在参考基因的比对信息。

根据SRA数据产生的特点,将SRA数据分为四类:

Studies--研究课题

Experiments--实验设计

Runs--测序结果集

Samples--样品信息

SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.

Studies是就实验目标而言的,一个study可能包含多个Experiment。

Experiments包含了Sample、DNAsource、测序平台、数据处理等信息。

一个Experiment可能包含一个或多个runs。

Runs表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分:

ERP或SRP表示Studies;

SRS表示Samples;

SRX表示Experiments;

SRR表示Runs;

教一下大家如何更加快速的(可都是Mb/s的速度奥)下载SRA文件,还有其他NCBI上所有数据大家自己发挥,都能找到,快速下载!

一、window系统

SRA数据下载截图,找到对应的SRR号,点击黄色部分SRR000001.sra即可完成下载

二、linux系统

1.进入linux服务器,下载aspera。

将会开始下载。

2.下载完毕后,解压,输入:tarxvfaspera-connect-3.1.1.70545-linux-64.tar.gz

3.安装输入:shaspera-connect-3.1.1.70545-linux-64.sh

4.cd到/home/usrname文件夹,ls-a就能看到.aspera

这就是安装的文件夹。

5.重要一步,添加环境变量,否则不能用。输入

exportPATH=$PATH:/home/username/.aspera/connect/bin

6.数据下载。

可以按照这个模板去下载了SRA数据(如果很多可以把所有命令写到一个shell里面,nohup提交睡大觉去就可以了,明早一醒,全部ok)

nohup/home/usrname/.aspera/connect/bin/ascp-i/home/usrname/.aspera/connect/etc/asperaweb_id_dsa.openssh-k1-T-l200manonftp@ftp-private.ncbi.nlm.:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra./&

9分子结构和蛋白质组学

9.1MMDB

9.2分析工具

Blink工具能显示预先计算(pre-computed)出的BLAST比对结果,即与Entrez数据库中每一条蛋白质序列相似的序列。用户可以限定一些参数,例如物种类别或被比对的数据库等来对结果进行筛选。

9.2.1开放式质谱搜索算法

开放式质谱搜索算法(OpenMassSpectrometrySearchAlgorithm,OMSSA)是一种与BLAST类似的算法,利用和BLAST中E值一样的方法在已知的蛋白质序列数据库(非冗余数据库或refseq数据库)中找出与待测序列最相近的已知序列。在OMMSA的网页上可以一次分析2000多个样品。用户还可以到ubchem.ncbi.nlm./omssa/download.htm.站点下载可进行更大量分析的OMSSA软件。

9.2.2HIV-1/HumanProteinInteractionDatabase

美国国立过敏和传染病研究所艾滋病部(TheDivisionofAcquiredImmunoDeficiencySyndromeofTheNationalInstituteofAllergyandInfectious)与南方研究院(SouthernResearchInstitute)和NCBI合作,建立了HIV-1/HumanProteinInteractionDatabase(HIV-1/人类蛋白相互作用数据库),用来记录HIV-1病毒蛋白和人类宿主细胞蛋白之间的相互作用。在www.ncbi.nlm./RefSeq/HIVInteractions/index.html网页上用户可以找到蛋白质在RefSeq中的检索号、EntrezGeneID号、相互作用的氨基酸位点、对相互作用的简单描述、关键词和PubMedID号等信息。

THE END
1.sp指标的用法理想股票技术论坛SP指标是一种常用的数据分析工具,用于评估特定领域的性能指标。通过掌握SP指标的用法,可以更有效地分析数据并做出准确的决策。使用SP指标可以帮助用户快速识别潜在问题和机会,从而优化工作流程和提高效率。 ,理想股票技术论坛https://www.55188.com/tag-8749722.html
2.AI钢笔工具怎么使用方法:掌握钢笔工具的使用技巧在数字绘图和图像编辑领域工具的应用越来越广泛。其中钢笔工具作为一种强大的绘图工具受到了多设计师和艺术家的喜爱。它可以帮助客户精确地勒出图像的轮廓从而创作出更加精美、细腻的作品。本文将为您详细介绍钢笔工具的采用方法及其技巧帮助您更好地掌握这一工具,创作出更多优秀的作品。 http://www.slrbs.com/jrzg/aitong/44488.html
3.Python性能分析工具pyspy原理用法解析arm平台下使用ndk工具交叉编译python,用于android系统;android-arm平台ndk交叉编译python 上传者:qq_45683435时间:2020-09-30 欧姆龙传感器ee-spx301_401_ee-spy30_40_ds_c_4_2.pdf 欧姆龙传感器ee-spx301_401_ee-spy30_40_ds_c_4_2pdf, 上传者:weixin_38743481时间:2019-10-08 ...https://www.iteye.com/resource/weixin_38715831-13710810
4.kubectl命令行工具用法详解?kubectl作为客户端CLI工具,可以让用户通过命令行的方式对Kubernetes集群进行操作。本节对kubectl的子命令和用法进行详细说明。 2.2.1 kubectl用法概述 ?kubectl命令行的语法如下: $ kubectl [command] [TYPE] [NAME] [flags] ?其中,command、TYPE、NAME、flags的含义如下。 https://www.jianshu.com/p/8710a3a0aadd
5.哈夫节的用途与使用方法介绍管道百科管道词条管道知识哈夫节的用途与使用方法介绍 哈夫节是一种新兴的管道抢修部件,对于管道漏水很多人都束手无策,大部分人对哈夫节还不太了解哈夫节的用途,很多自来水厂和工厂有的发现管道裂缝破裂直接把管道锯断然后补上一部分进行抢修,那样既浪费人力财力,又误工误时,不是良好的抢修办法,下面我们来共同了解一下哈夫节究竟有哪些用途,...https://www.chinapipe.net/baike/knowledge/18855.html
1.SP软件全方位解析,功能亮点一网打尽!编程语言SP软件简介及功能亮点解析,,SP软件是一款功能强大的应用软件,广泛应用于多个领域。该软件具备丰富的功能,为用户提供了便捷的操作体验。SP软件主要亮点包括:,,1. 强大的数据处理能力,可快速处理大量数据并生成精确结果。,2. 多样化的工具集,满足用户在不同场景下的需求。,3. 友好的用户界面,操作简便,易于上手。,4...https://www.zovps.com/article/index.php/post/374983.html
2.SP的标准惩罚是什么?业内认可的解决方案,用户:终于不再吃亏!SP的标准惩罚是什么?业内认可的解决方案,用户:终于不再吃亏! 在现代社会中,尤其是在数字营销和互联网行业,用户常常面临着各种不公平待遇或损失。为了保护消费者的权益,行业内逐渐形成了一套针对服务提供者(Service Provider, SP)的标准惩罚机制。这篇文章将深度解析SP的标准惩罚是什么,以及业内认可的解决方案,让...http://m.cnwyb.com/yxgl/10388.html
3.Android调试工具用法详细介绍Android本文主要为大家讲解多种Android调试工具的用法。1. 查看当前堆栈1)功能:在程序中加入代码,使可以在logcat中看到打印出的当前函数调用关系。2)方法:new Exception(“print trace”).printStackTrace();2. MethodTracing1)功能:用于热点分析和性能优化,分析每个函数占用的CPU时间,调用次数,函数调用关系等。https://www.jb51.net/article/90869.htm
4.Helium10谷歌拓展程序全解,总有一款适合你!附:Helium10插件下载...Helium 10新增一款与阿里巴巴合作开发的工具,用法类似阿里巴巴的source now谷歌扩展,卖家在亚马逊上找到一个产品,点击 "source now "按钮,该程序就会把卖家引导至阿里巴巴的产品供应商。 Helium 10谷歌拓展程序怎么用? ·安装 Helium 10扩展程序仅适用于谷歌浏览器,所以要确保下载并安装该浏览器。首先确保可以科学上网,然...https://www.cifnews.com/article/105241
5.androidSp工具类本地存储androidsp存储上限④支持SP一次性自动迁移至DataStore中。 2.DataStore用法 DataStore用Kotlin语言时用法很简单,参考官网即可;对于java语言,如果不用RxJava,很难构建出DataStore对象,所以,这里使用RxJava。 ①添加依赖项 implementation 'androidx.datastore:datastore-preferences:1.0.0' ...https://blog.51cto.com/u_16099168/7862595
6.渗透过程中可能要用到的Kali工具小总结介绍 Nmap是一款开源免费的网络发现(Network Discovery)和安全审计(Security Auditing)工具。软件名字Nmap是Network Mapper的简称。Nmap最初是由Fyodor在1997年开始创建的。随后在开源社区众多的志愿者参与下,该工具逐渐成为最为流行安全必备工具之一。详情可以参见:www.nmap.org。 https://xz.aliyun.com/t/6353
7.android完整视频播放器封装库个人文章目录介绍 1.关于此视频封装库介绍 1.1 能够满足那些业务需求 1.2 对比同类型的库有哪些优势 2.关于使用方法说明 2.1 关于gradle引用说明 2.2 添加布局 2.3 最...https://segmentfault.com/a/1190000012859056/
8.Android常用控件用法Android开发语言与工具Android常用控件用法 包含Checkbox 二、RadioButton 三、ImageView 四、深入LinearLayout 五、相对布局 六、TimePicker 七、DatePicker。 六、TimePicker 七、DatePicker。 五、相对布局 六、TimePicker 七、DatePicker。 四、深入LinearLayout 五、相对布局 六、TimePicker 七、DatePicker。https://www.open-open.com/lib/view/open1386658038361.html
9.那些年我在CSDN追过的安全白帽大佬,respect网络安全工具使用集锦手册 Metasploit Framework(MSF)的使用 CobaltStrike的使用 红蓝对抗经验小结 一次完整的渗透测试流程 姜晔老师 博客地址: https://jiangye.blog.csdn.net/ 自我介绍:那一年盛夏,心愿许得无限大。 擅长领域:病毒木马查杀、逆向工程 推荐分数:★★★ 推荐理由...https://www.eet-china.com/mp/a169261.html
10.碧蓝航线换装共享功能怎么用碧蓝航线换装共享功能用法介绍碧蓝航线游戏里面换装功能一直都是游戏主要的玩法之一,不过一直都是有同名舰船拥有不同的形态虽然可以编入一个队但不能使用同个时装,不过最近官方实装了新功能,下面就让我们来看看碧蓝航线换装共享功能用法介绍。 碧蓝航线换装共享功能用法介绍 某角色好感度达到100及以上时,即可使用「换装共享角色」的普通换装。 https://a.9game.cn/bilanhangxian/7344157.html
11.代码分析工具joern的基本用法安全客代码分析工具joern的基本用法 前言 joern是一个开源的源码分析工具,来自于安全顶会S&P的14年的一篇文章。目前网上关于joern的教程大部分是旧版的,考虑到目前还没有太多新版joern的教程,于是我就写了这篇文章。 相比其他工具,joern的优势: 能够生成代码属性图(CPG)...https://www.anquanke.com/post/id/236184
12.戴铭的博客我先介绍下什么是 makefile 吧。 makefile makefile 是在目录下叫 Makefile 文件,由 make 这个命令工具进行解释执行。把源代码编译生成的中间目标文件 .o 文件,这个阶段只检测语法,如果源文件比较多,Object File 也就会多,再明确的把这些 Object File 指出来,链接合成一个执行文件就会比较繁琐,期间还会检查寻找函...http://ming1016.github.io/2021/02/21/deeply-analyse-quickjs/
13.端口扫描工具终极用法腾讯云开发者社区端口扫描工具终极用法至察助安 为什么要做c段探测,运营商分配给IDC机房地址时大部分都是连续IP地址,租给客户(渗透目标)时很大概率会分配同C段内IP地址(除非目标就一个IP地址),使用工具扫描可以探测出同段服务。 扫描工具UP主经常用的有三个: Nmap Masscan ...https://cloud.tencent.com/developer/article/2102454
14.Nmap对UDP端口扫描详解2.3 Nmap工具的基本用法 Nmap的基本用法非常简单,可以通过命令行进行操作。以下是几个常用的Nmap命令示例: # 对目标主机进行UDP端口扫描 nmap -sU target_host # 扫描特定端口范围,如1-100 nmap -sU -p 1-100 target_host # 识别UDP服务版本信息 https://wenku.csdn.net/column/643q5ub47j
15.压铆螺钉尺寸规格标准压铆螺钉使用方法介绍压铆螺钉尺寸规格标准 压铆螺钉使用方法介绍 压铆螺钉是是利用物体的斜面圆形旋转和摩擦力的物理学和数学原理,循序渐进地紧固器物机件的工具。螺钉为日常生活中不可或缺的工业必需品。压铆螺钉是通过螺纹旋入零部件体内,连接零件的。要想拔出只需将压铆螺钉旋出即可,压铆螺钉不被破坏,可以反复使用。那么压铆螺钉...https://www.qizuang.com/gonglue/wujin/64908.html
16.wm2现在很多人都拥有了WM5系统的手机,在对系统进行DIY修改的时候老是因为系统没有解锁而什么都干不了,那个2003的解锁工具SDA_ApplicationUnlock又因为2003和WM5系统不一样解锁方式不同而不能达到解锁的目的,这时我们就只能通过手动修改注册表进行解锁了,而且只能使用带特权的注册表编辑器。[SDA_ApplicationUnlock的程序对手机...https://www.douban.com/note/176448624/