Skip to main content

6 posts tagged with "Bioinformatic analysis"

View All Tags

Bioinformatic analysis:linux操作指南之上游分析(Part 1)

· 6 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

1. 安装 linux

这就不多说了,自己搞一个虚拟机,我用的是 Centos7。

ps:如果使用的是学校集群的话,注意在修改密码中改一下自己的密码,开启后账号为:root,密码自定义(注意是暗文,你敲进去是不会显示的)结束了 enter 即可

2. 预先安装

首先要安装 anaconda,为了不污染环境

-- 安装linux安装包(如果报错自己去anaconda网站找地址)
wget https://repo.anaconda.com/archive/Anaconda3-2023.07-Linux-x86_64.sh

-- 解压anaconda,后面的就是刚刚安装好的名字
bash Anaconda3-2023.07-Linux-x86_64.sh

-- 更新环境变量
source ~/.bashrc

Bioinformatic analysis:质量控制与聚类分析(Part 2)

· 6 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

1. 测出数据部分

在通过前文的处理之后,我们得到了两个输出文件,分别为 raw_feature_bc_matrix 和 filter_feature_bc_matrix。前者为原始数据,后者为 cellranger 经过自己处理后的数据,后续的分析会基于 filter_feature_bc_matrix 文件夹(上游比对分析产生的三个文件)。文件夹目录如下

--filter_feature_bc_matrix
----barcodes.tsv
----features.tsv
----matrix.mtx

逐一解释:

**barcodes.tsv:**细胞标签

**features.tsv:**基因 ID

**matrix.mtx:**表达数据

后续我们会使用 seurat(R 语言)进行分析

Bioinformatic analysis:差异基因与细胞标注(Part3)

· 4 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

在单细胞 RNA 测序分析中,聚类之后筛选差异基因的主要目的是为了深入理解不同细胞群体之间的生物学差异。首先先看我们筛选出来的数据并对其进行解释

**p_val:**基因表达量差异 P 值(一般不看这个)

**p_val_adj:**校正后的 P 值(一般看这个)

**avg_log2FC:**基因在该细胞簇中与其他细胞簇表达量差异倍数的 log 值,一般大于 2 是最好的效果,说明差异很大

**pct.1:**在该细胞簇中表达该基因的细胞数量占比

**pct.2:**在其他细胞簇中表达该基因的细胞数量占比平均值

**cluster:**在哪一类簇中

**gene:**名字

**myroc:**roc 评分,范围从[0,1] ,越大越好


Bioinformatic analysis:富集分析 (Part4)

· 5 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

通过前文我们可以提取出差异基因,然而差异基因的数量较多,对其进行分析会十分冗长,因此我们可以采取富集分析的方式进行归类。富集的意思是表示差异基因或者差异物质中注释到某个代谢通路的基因或者物质数目在所有差异基因或者物质中的比例显著大于背景基因或物质中注释到某个代谢通路的基因或物质数目在所有背景基因或者物质中的比例。简而言之一句话概括:该差异基因在特定的通路上占比很大

5.1 GO 富集分析

主要用来看基因的三个方面,分别是分子功能、细胞组分、参与的生物过程。

举例,铁离子结合的 GO term 是 GO:0005506,如果我们对所得到的差异基因进行 GO 富集分析后得到该 term 富集,则我们可以认为我们所研究的现象可能与铁离子结合有关系

进行 go 分析时,可以得到如下数据:

参数解释:

category: Gene Ontology 数据库中唯一的标号信息

**over_represented_pvalue:**富集分析 P 值,P 值越小越显著

under_represented_pvalue:

**numDEInCat:**该功能类下的差异基因数目

**numInCat:**该功能类下的基因数目

**term:**Gene Ontology 功能的描述信息

**ontology:**该 GO 的类别(CC,细胞组分;BP,生物进程;MF,分子功能)。

接着,还可以可视化 DAG 图,分支代表包含关系,从上至下所定义的功能范围越来越小,一般选取 GO 富集分析的结果前 5 位作为有向无环图的主节点,颜色的深浅代表富集程度。概括的说, 可以分析 GO terms 在富集分析中是否显著,并且 terms 是如何相互关联的

Bioinformatic analysis:PPI分析(Part 5)

· 2 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

这两块代码含量都比较少,大部分通过在线分析就可以出结果

构建差异表达基因编码的蛋白质之间的相互作用网络,识别关键调控蛋白质或蛋白质复合物。

输出的是 PPI 网络图及其分析结果,发现核心蛋白质。

在线分析网站:356 items (Macaca mulatta) - STRING interaction network (string-db.org)

可选选项:

  1. 隐藏无关联节点
  2. 节点多少可由 score 设置
  3. 保存为 tsv 文件(as tabular test output),进入到 cytoscape 进行美化
  4. 多个选 Multiple proteins;单个选 Protein by name

Bioinformatic analysis:拟时序分析(Part 6)

· 4 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

在进行了聚类之后,其实各细胞是否具有同种生存状态是未知的。拟时序分析的目的就在于将细胞分为不同的分支,将各点(细胞)体现在不同的时间坐标中,从而了解各细胞的状态定位

在做拟时序分析的时候,采取的是机器学习方法(无监督和有监督),因此需要一定的生物学知识对图标进行判断,图中主要是为了表达细胞之间(簇)表达谱系的连续性,因此方向未必与现实情况相同(需要在代码中加入 reserve)

举个例子:B 细胞不会分化为 NK 细胞,但在图中就会如此,这就是 reserve 的作用

本文主要采取无监督的方法进行分析


tips:无监督就是没有真实数据,有监督就是包含一定的真实数据

  • 无监督数据:常见的如单细胞 RNA 测序数据,在特定的发育阶段采集了样本,但不确定细胞的确切时间顺序。
  • 有监督数据:例如药物处理实验,在不同时间点采集了单细胞样本,记录了每个样本的处理时间,通过这些时间点信息可以进行有监督的拟时序分析。

首先,使用 monocol2 创建 CellDataset 对象后,就有了拟时分析结果的可视化,我们可以将其分为:

state 状态:

代表了细胞在某一生物学过程中所处的不同阶段。例如,在细胞分化过程中,初始的未分化状态、不同分化路径中的中间状态,以及终末分化状态,都会被标记为不同的“state”。