如果您无法正确浏览该邮件,请直接访问这里
GZBIO
权威信息 ● 对接服务 2015年12月 第五期
导 读

用高通量筛选方法(基因芯片、蛋白质组学等)筛选差异表达基因 之后,利用软件或者数据库解析这些差异表达基因的功能、参与的生物学过程、调控通路,并构建蛋白质相互作用网络等一系列步骤,已经成为探索疾病的发病机理 和分子机制的常规方法。但目前人工注释数据库注释的基因功能和分子相互作用存在数量不够多、范围不够广等问题。为解决这些问题,广州生物医药公共服务平台 与南方医科大学黄仲曦团队联合开发了生物医药网络文献挖掘系统。

该系统可以直接从文献中获取信息,是解析基因、识别分子相互作用、检索关键词相关基因的有效 工具。可通过PubMed摘要的文献信息注释基因功能、构建分子网络、检索相关基因。包括两个工具软件:GenCLiP 2.0用来注释基因功能、构建分子网络;CooLGeN用来检索任意关键词相关基因。点击查看更多文献挖掘系统介绍。

目前,广州生物医药公共服务平台用户可免费使用该系统开展相关研究。

系统简介

生物医药网络文献挖掘系统可通过PubMed摘要的文献信息注释基因功能、构建分子网络、检索相关基因。该系统包括两个工具软件:GenCLiP 2.0用来注释基因功能、构建分子网络;CooLGeN用来检索任意关键词相关基因。其主要原理如下:
1、计算机根据词频自动挖掘基因的关键词,并通过人工添加的方式注释客户关注的关键词,通过统计学检验筛选出分析基因富集的关键词,再用模糊聚类的方法将关键词按相关程度分组;
2、从文献中准确识别分子相互作用,整合公共的互作数据(包括HPRD、BioGRID、CORUM和IntAct),构建分子互作网络;
3、挖掘与任意检索词共同出现在一个句子或摘要的基因,人工查阅文献确定与检索词相关的基因。(详细信息参阅已发表论文PMID:24764463)。

技术路线
系统功能

(1)注释基因功能、构建互作网络图
  根据用户提供的一组人类基因或蛋白(<3000个,可事先区分上调和下调基因),做如下分析:
  1、分析这组基因与哪些功能(包括生物学过程、疾病、表型、病原、治疗和药物等任何词汇)相关;筛选有统计学意义的关键词,给出注释结果列表、关键词与基因的聚类分析热图。
  2、构建这些基因(蛋白)互作网络图,标注与感兴趣主题相关的基因。
(2)检索指定主题相关的基因
  根据用户提供的研究主题(提供详细的英文词汇)给出已报道与之相关的基因或蛋白,可从全部人基因或给定的一组基因中筛选,为相关基因提供关键的文献证据及来源,并构建基因网络。
  以上功能的应用案例见下文中“应用实例”一栏。针对上述功能,作为文献挖掘系统的运营方,我们可提供相应的技术服务与培训课程,详情见下文中“操作培训”、“咨询联系”栏目。
 

系统构成
  该系统包括两个工具软件:(1)GenCLiP 2.0[1];(2)CooLGeN。分别介绍如下:
  (1)GenCLiP 2.0[1]http://www.gzbio.net/gen/) 可以分析一组人基因富集的关键词和构建分子网络。相比较于同类软件,它主要有两个独特之处:1、以自由词来注释人基因功能,自由词可以是文献挖掘产生也可 以是用户提交;2、从MEDLINE摘要中准确识别和整合广泛的分子相互作用,以此构建互作网络以及与自由词相关的子网络。
  GenCLiP 2.0在阐明疾病的分子机制,构建疾病的分子网络,发现诊治的靶点等方面具有独特的优势。

图1. GenCLiP 2.0主界面

  (2)CooLGeN(http://ci.smu.edu.cn/CooLGeN/) 是一款新的文献挖掘工具,专门用于挖掘与任意搜索词和基因一同在文献中出现的基因,以及构建这些基因的基因网络。CooLGeN支持多个自由词检索是它与 同类软件相比最大的优势,也为生物医学研究者们查询感兴趣的基因以及它们的相互作用提供了高效的解决方案,同时它可以帮助生物审编专家注释基因的相关信 息。

图2. CooLGeN主界面

应用实例
(1)GenCLiP 2.0分析瘢痕疙瘩差异表达基因:
  瘢痕疙瘩与增生性瘢痕相比较不同的是前者的生长会蔓延至原有伤口以外的地方造成毁容,并且会对治疗产生抵抗。我们课题组通过分析瘢痕疙瘩与增生性瘢痕基因芯片数据,筛选出在瘢痕疙瘩中差异表达的118个基因,其中有65个上调表达和53个下调表达基因。
  在GenCLiP 2.0的分析中,富集的关键词主要与细胞生长(cell growth)、细胞外基质(extracellular matrix)、上皮-间充质转换(epithelial mesenchymal transition,EMT)、细胞迁移(cell migration)、间充质干细胞(mesenchymal stem cell)和伤口愈合(wound healing),参见图3。我们人工添加胶原(Collagen)作为检索词时,结果有10个上调基因与胶原密切相关,具有统计学意义。图3A聚类分析 热图也显示这些关键词与这组基因密切相关,高亮显示。以上这些关键词与瘢痕疙瘩的特点非常一致,但与传统上的认识不同的是角化细胞和角化细胞分化也注释为 关键词,这提示我们应关注角化细胞。最近的研究也恰恰证实了角化细胞在瘢痕疙瘩进程中的重要作用,有相当一部分上调表达的基因参与了瘢痕疙瘩角化细胞的 EMT过程[2]

图3.瘢痕疙瘩差异表达基因富集的关键词(部分)

  基因网络的结果(图4-B)显示MMP2在网络中扮演得重要角色,有意思的是,MMP2的激活因子THBS2、CST2和GLB1是上调表达基因,抑 制因子IL1RN、S100A8和S100A9是下调表达基因,这些基因大多数在瘢痕疙瘩中还未被研究,但是关键词的结果表明它们与细胞外基质、上皮-间 充质转换、细胞迁移和细胞生长有密切相关。因此,我们推测异常表达的基因可能促使MMP2的上调表达,进而影响瘢痕疙瘩的进程。

图4

  图4为GenCLiP 2.0分析瘢痕疙瘩与增生性瘢痕比较的异常表达基因(红色和绿色分别表示上调基因和下调基因)的结果。(A)平均连锁等级聚类分析基因和关键词;(B)构 建分子网络,其中与瘢痕疙瘩有关联的基因节点的边框高亮紫色;1000次的随机模拟基因数的分布(C)和基因对数的分布。 更多案例可参考文献[3-7]

(2)CooLGeN检索上皮-间充质转换相关基因
  上皮-间充质转化(Epithelia-mesenchymal transition,EMT),是指上皮细胞通过特定程序转化为具有间质表型细胞的生物学过程。在胚胎发育、慢性炎症、组织重建、癌症转移和多种纤维化 疾病中发挥了重要作用。通过EMT,上皮细胞失去了细胞极性,失去与基底膜的连接等上皮表型,获得了较高的迁移与侵袭、抗凋亡和降解细胞外基质的能力等间 质表型。EMT是上皮细胞来源的恶性肿瘤细胞获得迁移和侵袭能力的重要生物学过程。阐明调控恶性肿瘤细胞发生EMT过程的分子机制,明确其在恶性肿瘤的发 生、发展、转移中的病理意义,是肿瘤转移中EMT机制研究的关键科学问题。EMT是一个涉及多基因/蛋白的复杂生物学过程[8],掌握到越多与之相关的基 因将更好地促进研究,但是在Gene Ontology中目前只注释了88个与EMT相关的人基因(GO:0001837,epithelial to mesenchymal transition),更多的已知基因还隐藏在文献中尚未注释。在PubMed中,我们输入检索式:("epithelial mesenchymal transition" OR "epithelial to mesenchymal transition") AND human,可以查到7366篇文献(截至2015年3月15日),查阅完所有文献并确认EMT相关的基因将是非常繁琐和困难的。我们在CooLGeN检 索MEDLINE句子和摘要的输入框中分别输入多个检索词:EMT OR "epithelial mesenchymal transition" OR "epithelial to mesenchymal transition",系统分别返回1875个和2988个基因与检索词共同出现在句子(在5952篇摘要)和7423摘要(与PubMed检索结果相 似)。
  我们用已知88个已知的EMT相关基因输入到CooLGeN中作为背景基因来筛选结果基因,检验通过共现关系来查找相关基因的效果,系统分别找到77 个和84个基因与检索词在MEDLINE的句子和摘要中共现。为了高效地确定更多尚未注释的EMT相关基因,我们移除已知的相关基因,并以992个与细胞 迁移相关的基因(来自GO:0016477)作为背景基因筛选,并将杂志IF值设定为大于5,这时CooLGeN总共返回246个基因与检索式在 PubMed句子中共现,是EMT的候选基因。经过仔细地查阅文献,我们确认了其中140个基因与EMT相关,准确率超过55%。
  EMT相关基因的互作网络可以给用户研究EMT相关的通路提供最直观的提示,然而如果仅用GO中已知的88个基因构建的网络略显简单,如图5,这远远 不能反映EMT复杂的机制。我们通过相关基因的查找,确认了其它140个基因与EMT相关,重新用这些基因构建网络,如图6,新的基因在网络中处于核心位 置并且贡献了更多的连接,特别是SRC、EGFR、AKT1和CTNNB1基因。此外,已知的基因也比之前的网络有了更多的连接,如SMAD3、 SMAD2和CTNNB1。有研究表明SRC诱导EMT过程是与CTNNB1(beta-catenin)、EGFR、STAT3、AKT1和 PTK1(FAK)以及相关通路有关[9],而在新的网络中,这些基因和它们的连接恰恰是最复杂的部分。7个TGFbeta家族基因在网络中也处于非常重 要的位置,与MAPK1、CTNNB1、ROHA、SMADs和MMPs等相互作用,这与TGFbate诱导EMT机制相一致[8]。这些结果表明 CooLGeN对于查找与任意主题相关的基因以及解析复杂的基因网络都有非常大的帮助。

图5. GO注释的EMT相关基因的基因网络图

图6. 由重新确定的(黑色)和已知的(绿色)EMT相关基因构建的基因网络

操作培训
  为帮助广大科研工作者更好地了解该文献挖掘系统的应用,广州生物医药公共服务平台邀请南方医科大学肿瘤研究所的汪佳宏博士精心设计了“文献挖掘系统及 其应用”的培训课程。详情如下:
  培训内容:
  1、文献挖掘系统原理及功能介绍;
  2、学习利用GenCLiP 2.0软件分析一组人基因富集的关键词并构建分子互作网络。
  3、学习利用CooLGeN软件检索与任意词汇和基因一同在文献中出现的基因,以及构建这些基因的基因网络。
  主讲人:
  南方医科大学肿瘤研究所 汪佳宏 博士
  主要研究方向:1、基于高通量组学数据的分子网络研究和药物筛选;2、文献挖掘研究。
  培训时间及地点:
  时间:2015年12月 18 日上午9:30-11:30
  地点:广州天河区龙口东路龙口科技大厦3楼会议室
  (地铁岗顶站A出口出来后,向东行至龙口东路左转步行约100米,即到龙口科技大厦)
  注:本次培训不收费,建议学员自带笔记本电脑,以便现场操作、互动练习。
  附件:培训班报名表 (请将报名信息直接发送到 wg@gzbio.org )
姓名   邮箱  
单位   电话  
地址  
所在课题组及负责人(学生填)  
备注  
咨 询 联 系
  联系人:文先生、张先生
  联系电话:400-838-3180,020-87568623-616
  邮箱:wg@gzbio.org   QQ:3035704779
  如需询问更多服务详情,请访问集采园www.biotask.cn
  寻找最知名、最靠谱的服务商,请关注集采园微信公众号。
《GZBIO信息港》编辑部
参考文献
1. Wang JH, Zhao LF, Lin P, et al. GenCLiP 2.0: a web server for functional clustering of genes and construction of molecular networks based on free terms. Bioinformatics 2014; 30:2534-6.
2. Hahn JM, Glaser K, McFarland KL, et al. Keloid-derived keratinocytes exhibit an abnormal gene expression profile consistent with a distinct causal role in keloid pathology. Wound Repair Regen 2013; 21:530-44.
3. Wang T, Xu Y, Hou P. Identifying novel biomarkers of gastric cancer through integration analysis of single nucleotide polymorphisms and gene expression profile. The International journal of biological markers 2015:0-0.
4. Qiu T, Wang H, Wang Y, et al. Identification of genes associated with melanoma metastasis. The Kaohsiung Journal of Medical Sciences 2015.
5. Chen L, Huang Z, Yao G, et al. The expression of CXCL13 and its relation to unfavorable clinical characteristics in young breast cancer. J Transl Med 2015; 13:168.
6. Li J, Gao J-Z, Du J-L, et al. Increased CDC20 expression is associated with development and progression of hepatocellular carcinoma. International journal of oncology 2014; 45:1547-1555.
7. Zhang Y, Wang H, Wang J, et al. Global analysis of chromosome 1 genes among patients with lung adenocarcinoma, squamous carcinoma, large-cell carcinoma, small-cell carcinoma, or non-cancer. Cancer and Metastasis Reviews 2015:1-16.
8. Heldin CH, Vanlandewijck M, Moustakas A. Regulation of EMT by TGFbeta in cancer. FEBS Lett 2012; 586:1959-70.
9. Guarino M. Src signaling in cancer invasion. J Cell Physiol 2010; 223:14-26.
 
返回到顶部
版权所有 ® 2004 - 2015 广州生物医药公共服务平台 www.gzbio.net