博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
NPInter数据集的奇葩标号的出坑秘籍
阅读量:6994 次
发布时间:2019-06-27

本文共 1305 字,大约阅读时间需要 4 分钟。

这篇恐怕是有始以来命名最无奈标题了。需要写一下攻略。

业内人士都熟知NPInter,但是该数据库一直以来访问受限。不过终于能访问得到数据集。

但是蛋疼的是2.0的数据库id的命名方法实在奇葩,想了很多办法都难以攻破瓶颈。于是想到用3.0的数据库ID联查一下ncIdentifier。

终于ncIdentifier被验证可行,但是问题又来了:noncode数据库里找不到其中的一些序列。

先得读读核酸研究,搞明白命名方法。https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3965073/

先后尝试用12个数据库中的8个,终于LNCipedia算是良心库,http://www.oebiotech.com/Article/lncrnabtsj.html

12个数据库的相关文章:

www.360doc.com/content/17/0310/11/19913717_635515733.shtml

经过十动然拒,不过最终结果虽然称不上喜大普奔,但是回想起郁闷地想办法找序列,还算是细思恐极的过程。

此外,找到序列还是有遗留工作,得把序列从网上爬取下来存成fasta。

***

补充一下,中科院这种格式的ID还有一个数据库可查NPInter的序列,是印度加尔各答珀色研究所搞的。 bicresources.jcbose.ac.in/cgi-bin/lncrbase

追评一下这个数据库,有坑。比如n410143,查到的序列号是另外一种格式,需要再对照图寻找

**

最新探坑进展:ipedia和jcbose库里都没有的,比如n381557得用联查法,得到noncode序列ID格式从Noncode数据库里找

**

今天终于收集完了所有RNA数据。

总结:

第一步,先根据2.0已有的github数据提取所有目标序列;

第二步,抽取出未查找到的ID表;

第三步,到印度的数据库去进行查找 http://bicresources.jcbose.ac.in/zhumur/lncrbase;

 

第四步,到noncode在线查找第三步仍未找到的序列;

 

第五步,到NPInter下载2.0和3.0两个库,对第四步仍未查找到的序列,通过联查法获取3.0的noncode格式ID,到NPInter在线查找,找到对应RPI号,再跳转到noncode对应RNA转录序列的列表,选取序列

 

第六步,使用根特大学的数据库进行补充验证(可选)

 

*******

没想到两周之后遇到新的坑:superfamily的某些id得再uniprot里面猜。探坑结束再发。找了一些资源

GDB、GenBank、SWISS-PROT、PIR等可查询蛋白质的其它信息;

PDB主要应用于蛋白质结构预测和结构同源性比较。NRL-3D数据库则是PDB数据库中所有蛋白质序列的信息。http://www.rcsb.org/pdb/

******

最近又看到两个数据库:

下面还有篇科普文:

以及使用基因通路和其他几何方法的方法

转载于:https://www.cnblogs.com/ubiwind/p/9241372.html

你可能感兴趣的文章
mysql工具链--devops
查看>>
ubuntu备忘录
查看>>
android 效果实现方式
查看>>
ECSHOP_模版文件全介绍
查看>>
Really Simple Syndication
查看>>
第十章 Scala 容器基础(十三):使用for yield转化集合
查看>>
第十章 Scala 容器基础(二十):使用reduce和fold方法遍历集合的所有元素
查看>>
Hive DDL 内部表外部表 分区 分桶 行格式 存储文件格式 概述
查看>>
MySQL 压测工具 sysbench 安装及使用
查看>>
转:在win7系统下使用TortoiseGit(乌龟git)简单操作Git@OSC
查看>>
网络安全学习站点
查看>>
第一篇博文
查看>>
让 Markdown 中的代码可以实时运行
查看>>
spring和redis的整合
查看>>
Kubernetes为何如此炙手可热?
查看>>
Spring Auto-Wiring Beans
查看>>
致那些没有打倒你的人
查看>>
开源监控系统整合Nagios+Cacti+Nconf+Npc中文版
查看>>
SeimiCrawler v0.24发布了
查看>>
腾讯微信公众平台账号类型说明
查看>>