如何查询NCBI基因信息的所有版本历史?

在NCBI查询一个基因的信息时,我们经常可以看到这样的评论:

网站会告诉你最近这个基因的信息是什么时候更新的。然后我就在想,我还能查以前的记录吗?如果有,应该去哪里查?

这个技巧非常简单,NCBI官方有一个网页介绍如何查询序列修订历史:

https://www . NCBI . NLM . NIH . gov/GenBank/sequencerevisionhistory/

现在,举个例子:

比如上面截图显示的基因,我们首先要找到它的Accesion ID。单击页面右侧的RefSeq:

此时会自动跳转到该基因所有已知的同种型。比如这个基因有三种亚型(见下图)。选择您想要查看的同工型,这里我将以第一个同工型为例。其实NM和NP开头的数字分别是接入核酸和蛋白质,但是这里需要注意的是,你要用小数点前的内容来搜索。比如这里,如果你想看到这个基因的核酸序列的所有版本历史,你需要的登录id是NM_001252313:

重点是,现在复制这个网站(如果要查询其他基因,只需更改链接中问号前的登录ID):

https://www . NCBI . NLM . NIH . gov/nuc core/NM _ 001252313?report=girevhist

将出现以下页面:

这是该基因被列入NCBI以来所有的更新记录。可以看到最近一次更新是在今年6月22日。你可以随意查看过去的记录。对于这个基因,有几十种更新。在页面底部,还会告诉你这个基因第一次被收录的时间(哇,真巧,这个日期正好是我的生日):

在此页面中,您可以选择两个版本进行比较。比如这里我想比较一下最新版本和16年3月更新的版本的区别。这里你可以选择比较FASTA或者选择blast。FASTA比较只告诉你基因序列有没有差异,不会显示细节:

如果选择blast,然后单击比较,两个版本中基因序列的BLAST比较结果将出现在小窗口中:

另外,如果你点击一个早期版本的历史记录,它会告诉你这个版本的信息是什么时候更新的,并且会提示你这个记录已经更新了,并且有一个最新版本的链接: