Skip to main content

欢迎来到FEMATHS小组学习日志

· 9 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

FEMATHS 学习小组的故事可以追溯到 2023 年 6 月。当时,JoyBunzqqqqqqj1110Tanger 三人决定一起攻读与 PINNPhysics-Informed Neural Networks)相关的论文,以突破各自在学习中遇到的瓶颈。

但在阅读过程中,大家逐渐意识到:不仅 JoyBunzqqqqqqj1110 对 PINN 感到困惑,连相对熟悉一些的 Tanger 也有许多难以理解的地方。于是我们决定边读论文边做笔记。虽然这些笔记可能显得 粗浅、幼稚,甚至不乏理解上的偏差,但我们仍希望将它们整理出来。我们相信,通过写笔记的方式,可以尽可能清晰地梳理出 PINN 以及人工智能相关论文中的核心思想和原理。我们希望用最朴素的学习方法,把复杂的内容讲明白——用简单的努力,积累不平凡的价值

这,就是 FEMATHS 小组学习日志 的由来。

后来,随着 Tanger 面临考研与工作的压力,科研学习和小组学习日志一度中断。直到 2025 年,桂林电子科技大学数学与计算科学学院公布拟录取名单,Tanger 顺利被录取。这也成为重新启动学习日志的契机——新的笔记就此续写。

从入门到入土?不,是精通!科技论文完全指南:如何找到一篇合适的科技论文

· 8 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

科技论文是学者与研究人员进行学术交流的重要方式。通过阅读科技论文,不仅可以了解当前领域的研究进展,还能提升自己对复杂问题的认知能力和理解力。在学习过程中,书籍 📕、网站 🖥、期刊论文等都是常见且有效的起点资源。


🔍 如何找到一篇合适的科技论文

在上一节中,我们已经了解了科技论文的基本结构及其产生过程,相信你对科技论文已有初步认识。接下来,我们将学习如何寻找一篇适合阅读的科技论文

找到一篇合适的论文,对于入门新领域、拓展知识视野具有重要意义。一篇好的论文能够帮助你:

  • 快速了解某个研究方向的基本概念;
  • 把握领域内的研究重点与热点问题;
  • 学习论文写作的结构与逻辑表达方式。

HomPINNs: Homotopy physics-informed neural networks for learning multiple solutions of nonlinear elliptic differential equations

· 11 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

这是一篇使用同调法与 PINN 相结合解决非线性椭圆微分方程的论文,并处理了不规则边界区域。

摘要

摘要原文:

Physics-informed neural networks (PINNs) based machine learning is an emerging framework for solving nonlinear differential equations. However, due to the implicit regularity of neural network structure, PINNs can only find the flattest solution in most cases by minimizing the loss functions. In this paper, we combine PINNs with the homotopy continuation method, a classical numerical method to compute isolated roots of polynomial systems, and propose a new deep learning framework, named homotopy physics-informed neural networks (HomPINNs), for solving multiple solutions of nonlinear elliptic differential equations. The implementation of an HomPINN is a homotopy process that is composed of the training of a fully connected neural network, named the starting neural network, and training processes of several PINNs with different tracking parameters. The starting neural network is to approximate a starting function constructed by the trivial solutions, while other PINNs are to minimize the loss functions defined by boundary condition and homotopy functions, varying with different tracking parameters. These training processes are regraded as different steps of a homotopy process, and a PINN is initialized by the well-trained neural network of the previous step, while the first starting neural network is initialized using the default initialization method. Several numerical examples are presented to show the efficiency of our proposed HomPINNs, including reaction-diffusion equations with a heart-shaped domain.

摘要翻译:

基于物理信息神经网络(PINNs)的机器学习是一种新兴的非线性微分方程求解框架。然而,由于神经网络结构的隐含规律性,PINNs 在大多数情况下只能通过最小化损失函数找到最平坦的解。在本文中,我们将 PINNs 与同调延续法(一种计算多项式系统孤立根的经典数值方法)相结合,提出了一种新的深度学习框架,命名为同调物理信息神经网络(HomPINNs),用于求解非线性椭圆微分方程的多解。HomPINN 的实现是一个同调过程,由一个名为起始神经网络的全连接神经网络的训练和多个具有不同跟踪参数的 PINN 的训练过程组成。起始神经网络用于逼近由三元解构建的起始函数,而其他 PINN 则用于最小化由边界条件和同调函数定义的损失函数,这些函数随不同的跟踪参数而变化。这些训练过程被重新划分为同调过程的不同步骤,一个 PINN 由上一步训练有素的神经网络初始化,而第一个起始神经网络则使用默认初始化方法初始化。本文列举了几个数值示例来说明我们提出的 HomPINN 的效率,其中包括具有心形域的反应扩散方程。

An efficient neural-network and finite-difference hybrid method for elliptic interface problems with applications

· 5 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

这是一篇变系数的波动方程,提出了一种新的格式。

摘要

摘要原文:

A new and efficient neural-network and finite-difference hybrid method is developed for solving Poisson equation in a regular domain with jump discontinuities on embedded irregular interfaces. Since the solution has low regularity across the interface, when applying finite difference discretization to this problem, an additional treatment accounting for the jump discontinuities must be employed. Here, we aim to elevate such an extra effort to ease our implementation by machine learning methodology. The key idea is to decompose the solution into singular and regular parts. The neural network learning machinery incorporating the given jump conditions finds the singular solution, while the standard five-point Laplacian discretization is used to obtain the regular solution with associated boundary conditions. Regardless of the interface geometry, these two tasks only require supervised learning for function approximation and a fast direct solver for Poisson equation, making the hybrid method easy to implement and efficient. The two- and three-dimensional numerical results show that the present hybrid method preserves second-order accuracy for the solution and its derivatives, and it is comparable with the traditional immersed interface method in the literature. As an application, we solve the Stokes equations with singular forces to demonstrate the robustness of the present method.

摘要翻译:

一种新型高效的神经网络与有限差分混合方法被开发用于求解具有嵌入式不规则界面跳变不连续性的规则域中的泊松方程。由于解在界面处具有较低的正则性,当对该问题应用有限差分离散化时,必须采用额外处理以考虑跳变不连续性。本文旨在通过机器学习方法将此额外处理简化,以提升实现效率。

核心思想是将解分解为奇异部分和规则部分。神经网络学习机制结合给定的跳变条件求解奇异解,而标准五点拉普拉斯离散化用于获得满足边界条件的规则解。无论界面几何如何,这两个任务仅需监督学习进行函数逼近和快速直接求解器求解泊松方程,使混合方法易于实现且高效。二维和三维数值结果表明,本混合方法可保持解及其导数的二阶精度,且与文献中传统的浸入式界面方法相当。作为应用示例,我们通过求解带有奇异力的斯托克斯方程,验证了本方法的鲁棒性。

A new analytical formula for the wave equations with variable coefficients

· 14 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

这是一篇变系数的波动方程,提出了一种新的格式。

摘要

摘要原文:

This article presents a new analytical formula for the Cauchy problem of the wave equation with variable coefficients, which is a much simpler solution than that given by the Poisson formula. The derivation is based on the variation-of-constants formula and the theory of pseudodifferential operator. The formula is applied to an example to illustrate the feasibility.

摘要翻译:

本文提出了一个新的解析公式,用于求解具有变系数的波方程的柯西问题,该公式比泊松公式给出的解要简单得多。该公式的推导基于常数变换公式和伪微分算子理论。该公式被应用于一个例子,以说明其可行性。

Novel and general discontinuity-removing PINNs for elliptic interface problems

· 25 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

这是一篇关于处理变系数边界问题的 PINN 论文。

摘要

摘要原文:

This paper proposes a novel and general framework of the discontinuity-removing physicsinformed neural networks (DR-PINNs) for addressing elliptic interface problems. In the DR-PINNs, the solution is split into a smooth component and a non-smooth component, each represented by a separate network surrogate that can be trained either independently or together. The decoupling strategy involves training the two components sequentially. The first network handles the non-smooth part and pre-learns partial or full jumps to assist the second network in learning the complementary PDE conditions. Three decoupling strategies of handling interface problems are built by removing some jumps and incorporating cusp-capturing techniques. On the other hand, the decoupled approaches rely heavily on the cusp-enforced level-set function and are less efficient due to the need for two separate training stages. To overcome these limitations, a novel DR-PINN coupled approach is proposed in this work, where both components learn complementary conditions simultaneously in an integrated single network, eliminating the need for cusp-enforced level-set functions. Furthermore, the stability and accuracy of training are enhanced by an innovative architecture of the lightweight feedforward neural network (FNN) and a powerful geodesic acceleration Levenberg-Marquardt (gd-LM) optimizer. Several numerical experiments illustrate the effectiveness and great potential of the proposed method, with accuracy outperforming most deep neural network approaches and achieving the state-of-the-art results.

摘要翻译:

本文提出了一种新型且通用的断续性消除物理信息神经网络(DR-PINNs)框架,用于解决椭圆型界面问题。在 DR-PINNs 中,解被分解为光滑部分和非光滑部分,每个部分由独立的神经网络代理表示,这些代理可以单独训练或共同训练。解耦策略涉及依次训练这两个部分。第一个网络处理非光滑部分,并预先学习部分或全部跳跃,以协助第二个网络学习互补的偏微分方程(PDE)条件。通过去除部分跳跃并结合尖点捕获技术,构建了三种处理界面问题的解耦策略。另一方面,解耦方法高度依赖于尖点强制水平集函数,且由于需要两个独立的训练阶段而效率较低。为克服这些局限性,本文提出了一种新型 DR-PINN 耦合方法,其中两个组件在集成单一网络中同时学习互补条件,消除了对尖点强制水平集函数的需求。此外,通过轻量级前馈神经网络(FNN)的创新架构和强大的几何加速 Levenberg-Marquardt(gd-LM)优化器,训练的稳定性和准确性得到提升。多个数值实验验证了所提方法的有效性和巨大潜力,其精度显著优于现有方法。

DeepONet: Learning nonlinear operators for identifying differential equations based on the universal approximation theorem of operators

· 16 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

这是一篇开山之作提出了一个深度学习框架 DeepONet 用于求解偏微分方程的求解器,这篇论文介绍了原理。

摘要

摘要原文:

While it is widely known that neural networks are universal approximators of continuous functions, a less known and perhaps more powerful result is that a neural network with a single hidden layer can approximate accurately any nonlinear continuous operator [5]. This universal approximation theorem is suggestive of the potential application of neural networks in learning nonlinear operators from data. However, the theorem guarantees only a small approximation error for a sufficient large network, and does not consider the important optimization and generalization errors. To realize this theorem in practice, we propose deep operator networks (DeepONets) to learn operators accurately and efficiently from a relatively small dataset. A DeepONet consists of two sub-networks, one for encoding the input function at a fixed number of sensors xi=1,...,mx_i = 1, ... , m (branch net), and another for encoding the locations for the output functions (trunk net). We perform systematic simulations for identifying two types of operators, i.e., dynamic systems and partial differential equations, and demonstrate that DeepONet significantly reduces the generalization error compared to the fully-connected networks. We also derive theoretically the dependence of the approximation error in terms of the number of sensors (where the input function is defined) as well as the input function type, and we verify the theorem with computational results. More importantly, we observe high-order error convergence in our computational tests, namely polynomial rates (from half order to fourth order) and even exponential convergence with respect to the training dataset size.

摘要翻译:

尽管神经网络是连续函数的通用逼近器这一事实广为人知,但一个较少为人所知且可能更强大的结果是:具有单个隐藏层的神经网络能够精确逼近任何非线性连续算子。这一通用逼近定理暗示了神经网络在从数据中学习非线性算子方面的潜在应用。然而,该定理仅保证在网络规模足够大时存在较小的逼近误差,并未考虑重要的优化误差和泛化误差。为了在实践中实现这一定理,我们提出**深度算子网络(DeepONets)**以从相对较小的数据集准确高效地学习算子。一个 DeepONet 由两个子网络组成:一个用于在固定数量的传感器上编码输入函数 xi=1,...,mx_i = 1, ..., m(分支网络),另一个用于编码输出函数的位置(主干网络)。我们通过系统性模拟识别两种类型的算子,即动态系统和偏微分方程,并证明 DeepONet 相较于全连接网络显著降低了泛化误差。我们还从理论上推导了近似误差与传感器数量(即输入函数定义的传感器数量)以及输入函数类型之间的依赖关系,并通过计算结果验证了该定理。更重要的是,我们在计算测试中观察到高阶误差收敛,即多项式收敛率(从半阶到四阶)甚至与训练数据集大小相关的指数收敛。

Machine learning based spectral methods for partial differential equations

· 7 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

这是一篇使用谱元方法与 PINN(物理信息神经网络)相结合的论文。

摘要

摘要原文:

Spectral methods are an important part of scientific computing’s arsenal for solving partial differential equations (PDEs). However, their applicability and effectiveness depend crucially on the choice of basis functions used to expand the solution of a PDE. The last decade has seen the emergence of deep learning as a strong contender in providing efficient representations of complex functions. In the current work, we present an approach for combining deep neural networks with spectral methods to solve PDEs. In particular, we use a deep learning technique known as the Deep Operator Network (DeepONet) to identify candidate functions on which to expand the solution of PDEs. We have devised an approach that uses the candidate functions provided by the DeepONet as a starting point to construct a set of functions that have the following properties: (1) they constitute a basis, (2) they are orthonormal, and (3) they are hierarchical, i.e., akin to Fourier series or orthogonal polynomials. We have exploited the favorable properties of our custom-made basis functions to both study their approximation capability and use them to expand the solution of linear and nonlinear time-dependent PDEs. The proposed approach advances the state of the art and versatility of spectral methods and, more generally, promotes the synergy between traditional scientific computing and machine learning.

摘要翻译:

谱方法是科学计算用于求解偏微分方程 (PDE) 的重要工具。然而,它们的适用性和有效性在很大程度上取决于用于扩展偏微分方程解的基函数的选择。近十年来,深度学习异军突起,成为提供复杂函数高效表示的有力竞争者。在当前的工作中,我们提出了一种将深度神经网络与光谱方法相结合来求解 PDE 的方法。特别是,我们使用一种被称为深度算子网络(DeepONet)的深度学习技术来识别候选函数,并在此基础上扩展 PDE 的求解。我们设计了一种方法,以 DeepONet 提供的候选函数为起点,构建一组具有以下特性的函数:(1) 它们构成一个基础;(2) 它们是正交的;(3) 它们是分层的,即类似于傅里叶级数或正交多项式。我们利用定制基函数的有利特性,研究了它们的近似能力,并利用它们扩展了线性和非线性时变 PDE 的解。所提出的方法推进了频谱方法的技术水平和多功能性,更广泛地说,促进了传统科学计算与机器学习之间的协同作用。

其实只要细读了他的摘要就可以发现这篇论文的做法比较独特,他并不是把机器学习与谱方法相融合,而是采取了一种分阶段的模式,第一步是使用 DeepONet 去识别候选函数,再利用常规的谱方法来完成剩下的计算工作,他并不是一整块的模型而是耦合度低的分阶段模型。这种思想其实结合误差达到 10410^{-4}10810^{-8} 就能够理解,不过也算是给机器学习融合谱方法提供了一种思路,接下来我们详细的阅读这篇文章的结果以及方法。

Related GANs and their SRGAN ablation experiments

· 22 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

本文将从三部分,即 GAN 模型的理论部分,代码(实践)部分及 SRGAN 的消融试验部分展开介绍

1. GAN(Generative Adversarial Network)生成对抗网络

核心:由两个神经网络——生成器(Generator)和判别器(Discriminator)组成,通过博弈过程相互提升。 · 生成器:试图“伪造”以假乱真的数据。 · 判别器:判断输入是真实数据还是生成器伪造的。 · 训练目标:生成器希望骗过判别器,判别器希望准确识别真假。 本质上是一个最大最小问题:

minGmaxD Expdata[logD(x)]+Ezpz[log(1D(G(z)))]\min_G \max_D \ \mathbb{E}_{x \sim p_{\text{data}}} \left[ \log D(x) \right] + \mathbb{E}_{z \sim p_z} \left[ \log \left(1 - D(G(z)) \right) \right]

2. cGAN(Conditional GAN)条件生成对抗网络

核心:在 GAN 的基础上,引入“条件”信息(如标签、图像、文本等) · 生成器和判别器都接收条件变量 · G(z,y):在条件 y 下生成图像 · D(x,y):判断图像是否为在条件 y 下真实的 用途:图像翻译(如黑白图像上色)、语义图生成图像、文本生成图像 目标函数:

Automated and Context-Aware Repair of Color-Related Accessibility Issues for Android Apps

· 12 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

1. 摘要

约 15% 的全球人口受到各种残障或视力障碍的影响,但许多移动端的用户体验(UX)设计师和开发者在开发 App 时并未重视可访问性问题。这意味着每七个人中就有一个用户在使用 App 时面临不平等的体验,这不仅影响用户,也可能违反相关法规。实际上,如果 App 开发时考虑可访问性,不仅能提升整体用户体验,还能提升商业价值。因此,已有不少研究和检测工具被提出用于识别可访问性问题。

然而,与检测相比,修复工作明显滞后,尤其是“颜色相关的可访问性问题”——比如文字对比度不足和图片对比度不佳,这类问题极大地影响了低视力用户和老年用户的使用体验,而当前的修复方法对此无能为力。

为此,我们提出了 Iris:一种自动化且具备上下文感知能力的方法,用于修复颜色相关的可访问性问题。该方法通过设计一致性的颜色替换策略和属性定位算法,在修复问题的同时保持 UI 风格的一致性。实验显示,Iris 可达到 91.38% 的修复成功率,且效率较高。用户调研也表明其结果令人满意,开发者反馈积极。我们在 GitHub 上提交的 40 个 Pull Request 中已有 9 个被合并,另有 4 个正在积极沟通后续修复。Iris 工具现已开源,旨在推动移动可访问性修复领域的进一步研究。

从入门到入土?不,是精通!科技论文完全指南:如何正确且高效地阅读一篇科技论文

· 8 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

如果你读到这里,或许你已经准备好去探索这个领域的规律与本质。在我们看来,**认真对待每一篇论文,是科研之路的起点,更是最重要的一步。**正如教育部“长江学者”特聘教授尹芝南所言:

“阅读我们的文献,是从事科学研究的基础,也是我们研究生的必修课程。”

从头到尾逐字翻译或阅读一篇科技论文,实际上是效率最低的方式。经验丰富的科研人员通常会优先关注文章中最关键的信息,以进行快速判断其研究价值与相关性。

正确有效的阅读一篇科技论文

阅读一篇科技论文效率最低的方法就是从头到尾翻译。专家研究人员会从文章中较为关键的点进行查找发现。一般来说,大多数科技论文会分为五个部分,如图红色部分:

7.png

  • Abstract
  • Introduction
  • Method
  • Result
  • Discussion

从入门到入土?不,是精通!科技论文完全指南:如何写出一篇优秀的科技论文

· 18 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

相信看到这里的朋友,已经对一篇科研论文(Research Article)的基本结构相当熟悉了。科研工作者最常撰写的文章类型之一就是采用 IMRaD 模式 的研究论文,即包括以下几个部分:

  • I – Introduction(引言)
  • M – Methods(方法)
  • R – Results(结果)
  • A – Abstract(摘要)
  • D – Discussion(讨论)

我将结合自己的经历,分享论文写作的一般流程。需要注意的是,论文的撰写顺序通常并不等同于其最终的排版结构。在科研实践中,写作往往是从已有的研究结果出发,逐步向前、向后延展的。

通常,在完成一段时间的实验或建模工作后,我们首先获得的是一组数据或研究结果。因此,写作往往是从 Results(结果) 开始,根据结果再去梳理并书写 Methods(方法),说明这些结果是如何得到的。随后撰写 Discussion(讨论),对结果进行分析和解释,进一步明确其意义与不足之处。

在此基础上,我们再回到前面,撰写 Introduction(引言),梳理研究背景、动机、已有工作与创新点。最后撰写 Abstract(摘要),对全文进行简洁总结。

Bioinformatic analysis:linux操作指南之上游分析(Part 1)

· 6 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

1. 安装 linux

这就不多说了,自己搞一个虚拟机,我用的是 Centos7。

ps:如果使用的是学校集群的话,注意在修改密码中改一下自己的密码,开启后账号为:root,密码自定义(注意是暗文,你敲进去是不会显示的)结束了 enter 即可

2. 预先安装

首先要安装 anaconda,为了不污染环境

-- 安装linux安装包(如果报错自己去anaconda网站找地址)
wget https://repo.anaconda.com/archive/Anaconda3-2023.07-Linux-x86_64.sh

-- 解压anaconda,后面的就是刚刚安装好的名字
bash Anaconda3-2023.07-Linux-x86_64.sh

-- 更新环境变量
source ~/.bashrc

Bioinformatic analysis:质量控制与聚类分析(Part 2)

· 6 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

1. 测出数据部分

在通过前文的处理之后,我们得到了两个输出文件,分别为 raw_feature_bc_matrix 和 filter_feature_bc_matrix。前者为原始数据,后者为 cellranger 经过自己处理后的数据,后续的分析会基于 filter_feature_bc_matrix 文件夹(上游比对分析产生的三个文件)。文件夹目录如下

--filter_feature_bc_matrix
----barcodes.tsv
----features.tsv
----matrix.mtx

逐一解释:

**barcodes.tsv:**细胞标签

**features.tsv:**基因 ID

**matrix.mtx:**表达数据

后续我们会使用 seurat(R 语言)进行分析

Bioinformatic analysis:差异基因与细胞标注(Part3)

· 4 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

在单细胞 RNA 测序分析中,聚类之后筛选差异基因的主要目的是为了深入理解不同细胞群体之间的生物学差异。首先先看我们筛选出来的数据并对其进行解释

**p_val:**基因表达量差异 P 值(一般不看这个)

**p_val_adj:**校正后的 P 值(一般看这个)

**avg_log2FC:**基因在该细胞簇中与其他细胞簇表达量差异倍数的 log 值,一般大于 2 是最好的效果,说明差异很大

**pct.1:**在该细胞簇中表达该基因的细胞数量占比

**pct.2:**在其他细胞簇中表达该基因的细胞数量占比平均值

**cluster:**在哪一类簇中

**gene:**名字

**myroc:**roc 评分,范围从[0,1] ,越大越好


Bioinformatic analysis:富集分析 (Part4)

· 5 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

通过前文我们可以提取出差异基因,然而差异基因的数量较多,对其进行分析会十分冗长,因此我们可以采取富集分析的方式进行归类。富集的意思是表示差异基因或者差异物质中注释到某个代谢通路的基因或者物质数目在所有差异基因或者物质中的比例显著大于背景基因或物质中注释到某个代谢通路的基因或物质数目在所有背景基因或者物质中的比例。简而言之一句话概括:该差异基因在特定的通路上占比很大

5.1 GO 富集分析

主要用来看基因的三个方面,分别是分子功能、细胞组分、参与的生物过程。

举例,铁离子结合的 GO term 是 GO:0005506,如果我们对所得到的差异基因进行 GO 富集分析后得到该 term 富集,则我们可以认为我们所研究的现象可能与铁离子结合有关系

进行 go 分析时,可以得到如下数据:

参数解释:

category: Gene Ontology 数据库中唯一的标号信息

**over_represented_pvalue:**富集分析 P 值,P 值越小越显著

under_represented_pvalue:

**numDEInCat:**该功能类下的差异基因数目

**numInCat:**该功能类下的基因数目

**term:**Gene Ontology 功能的描述信息

**ontology:**该 GO 的类别(CC,细胞组分;BP,生物进程;MF,分子功能)。

接着,还可以可视化 DAG 图,分支代表包含关系,从上至下所定义的功能范围越来越小,一般选取 GO 富集分析的结果前 5 位作为有向无环图的主节点,颜色的深浅代表富集程度。概括的说, 可以分析 GO terms 在富集分析中是否显著,并且 terms 是如何相互关联的

Bioinformatic analysis:PPI分析(Part 5)

· 2 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

这两块代码含量都比较少,大部分通过在线分析就可以出结果

构建差异表达基因编码的蛋白质之间的相互作用网络,识别关键调控蛋白质或蛋白质复合物。

输出的是 PPI 网络图及其分析结果,发现核心蛋白质。

在线分析网站:356 items (Macaca mulatta) - STRING interaction network (string-db.org)

可选选项:

  1. 隐藏无关联节点
  2. 节点多少可由 score 设置
  3. 保存为 tsv 文件(as tabular test output),进入到 cytoscape 进行美化
  4. 多个选 Multiple proteins;单个选 Protein by name

Bioinformatic analysis:拟时序分析(Part 6)

· 4 min read
zqqqj
super bug engineer 4 nlp,robot,cv,ml and ds

在进行了聚类之后,其实各细胞是否具有同种生存状态是未知的。拟时序分析的目的就在于将细胞分为不同的分支,将各点(细胞)体现在不同的时间坐标中,从而了解各细胞的状态定位

在做拟时序分析的时候,采取的是机器学习方法(无监督和有监督),因此需要一定的生物学知识对图标进行判断,图中主要是为了表达细胞之间(簇)表达谱系的连续性,因此方向未必与现实情况相同(需要在代码中加入 reserve)

举个例子:B 细胞不会分化为 NK 细胞,但在图中就会如此,这就是 reserve 的作用

本文主要采取无监督的方法进行分析


tips:无监督就是没有真实数据,有监督就是包含一定的真实数据

  • 无监督数据:常见的如单细胞 RNA 测序数据,在特定的发育阶段采集了样本,但不确定细胞的确切时间顺序。
  • 有监督数据:例如药物处理实验,在不同时间点采集了单细胞样本,记录了每个样本的处理时间,通过这些时间点信息可以进行有监督的拟时序分析。

首先,使用 monocol2 创建 CellDataset 对象后,就有了拟时分析结果的可视化,我们可以将其分为:

state 状态:

代表了细胞在某一生物学过程中所处的不同阶段。例如,在细胞分化过程中,初始的未分化状态、不同分化路径中的中间状态,以及终末分化状态,都会被标记为不同的“state”。

Physics Informed Deep Learning (Part I) Data-driven Solutions of Nonlinear Partial Differential Equations

· 11 min read
Tanger
Academic rubbish | CV Engineers | Visual bubble | compute math | PINN | Mathematical model

这是一篇关于使用数据驱动方法实现的 Physics-Informed Deep Learning(PINN)经典论文。

论文的来源

    首先,本人通过搜索很多 PINN 的论文,发现许多论文都在引用这篇论文,在好奇心的驱使下就在 google 学术上搜索了这篇论文,我们可以看到出现了两个版本,从标题名上看大致相同,作者也没变化。据开组会时,覃老师介绍说可能是因为前面这个版本是相当于没有正式发表还处于一个草稿阶段,后面那篇是经过整理并发表到了比较好的期刊中,我们可以从引用量(比较粗的红线)以及 easyScholar (比较细的红线)打上的标签还有作者希望我们引用这项工作的论文排名(作者更希望我们引用 2019 年正式分布的那篇)中看到区别,但不妨碍这几篇论文的优秀性,总的来说 M Raissi 等人的工作是非常出色的。