RMan's Blog

发表于2025-03-01|论文笔记|KG•NLP•GFM•LLM•RAG•GNN

原标题：GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation 论文链接：https://arxiv.org/pdf/2502.01113 项目主页：https://rmanluo.github.io/gfm-rag/ TL;DR: GFM-RAG是第一个适用于大语言模型检索增强的图基础模型。摘要检索增强生成（RAG）在将知识集成到大语言模型（LLM）方面已被证明是有效的。然而，传统的RAG难以捕捉知识片段之间的复杂关系，这限制了它们在需要集成多来源知识的复杂推理中的表现。最近，图增强检索增强生成（GraphRAG）构建图结构来显式地对这些关系建模，从而实现更有效和高效的检索器。然而，它的性能仍然受到图结构内的噪声和不完整性的阻碍。为了解决这个问题，我们引入了一种用于检索增强生成的图基础模型（GFM）。GFM-RAG由图神经网络作为基本架构，该网络可以对图结构进行推理，以捕获复杂的查询-知识关系。具有8M参数的GFM在包含60个知识图、超过14M个三元组和700k个文档的大规模数据集上经历了两个阶段的...

在docker中运行cisco anyconnect并支持使用sso + 2fa 登录

发表于2023-12-20|技术分享|cisco•VPN•docker

学校使用了cisco anyconnect作为VPN，但是其不支持修改路由，必须使用全局代理，极大降低了正常网络访问的速度。于是就打算将其运行在docker中，通过代理的方式访问。简单搜搜索了一下，发现有openconnect这个开源的解决方案。但是使用后发现，学校的VPN使用了sso + 2fa的登录方式，openconnect并不支持。进一步搜索之后，发现了openconnect-sso这个项目，其在openconnect基础上封装了一层，调用网页浏览器，支持sso + 2fa登录。因此我打算将其封装到docker中，并通过X11访问网页浏览器，完成认证。 Docker-openconnect-sso最终项目地址：https://github.com/RManLuo/docker-openconnect-sso 使用方法配置docker环境配置X11环境Windows 教程在 Windows 上下载 VcXsrv 并安装第一步的设置窗口状态怎么选关系不大，我一般是用 One large window ，默认的 Multiple windows 在多屏情况下显示会有一...

Editing Language Model-based Knowledge Graph Embeddings

发表于2023-05-23|论文笔记|PLM•KG•NLP

Motivation KGs store facts in their graph structure. KGs embedding represents KGs in a low-dimension vector space which preserves the inherent structure of KGs. Recent studies apply PLMs to encode text information and generate representations for long-tail and emerging entities. KG embeddings with PLMs are usually deployed as static, which is challenging to modify without re-training. KG embeddings editingEditing language model-based KG embeddings, which aims to enable data-efficient and...

Incorporating Structured Sentences with Time-enhanced BERT for Fully-inductive Temporal Relation Prediction

发表于2023-04-24|论文笔记|知识图谱•BERT•预训练语言模型•时序

Motivations Traditional embedding-based TKGC models (TKGE) rely on structured connections cannot handle unseen entities. Symbolic rule methods suffer from inflexibility of symbolic logic. PLMs are pre-trained in large-scale corpora, so they are not adapted to particular domains and cannot handle temporally-scoped facts. Previous worksTLogic utilizes temporal random walks to get temporal logical rules in symbolic form. When TLogic applies the found rules to answer questions, it must precisely...

Discriminative Jackknife: Quantifying Uncertainty in Deep Learning via Higher-Order Influence Functions

发表于2022-10-23|论文笔记|不确定估计

MotivationTL;DR: The major motivation behind this method is: they use Jackknife to estimate the distribution of error, then it use a threshold to find the upper- and lower-bound of the error in the distribution, which is used for quantifying the uncertainty. Quantifying the uncertainty over the predictions of existing deep learning models remains a challenging problem. Deep learning models are increasingly popular in various application domains. A key question often asked of such model is “Ca...

如何理解时序点过程

发表于2022-03-04|科研经验|时序点过程•Temporal Point Process

什么是时序点过程：现实世界中有这么个问题：有这么一系列历史事件，每个事件都有其对应的发生时间，也有其所属的事件类型，基于这一系列历史事件，预测下一个要发生的是什么类型的事件，以及其发生的时间。点过程可以对一系列历史事件建模，来解决此预测问题。时序点过程的计算：给定一系列历史事件：点过程的核心是强度函数$\lambda(t)$，其定义方式如下定义方式是由极短时间内的平均发生事件次数除以时间段长度。其表示的含义是在给定一段历史事件的序列时，在之后的极小的一段时间中事件发生的概率。又由于随着时间的推移，事件可能在之后任意一个时间点发生，对于在这个极小的时间段中事件发生的概率我们又可以定义为：其表示的是事件在时间t当下发生的的概率除以时间t到未来中发生的概率。又由于 f^*(t)=\frac{dF^*(t)}{dt}所以 \lambda(t)=\frac{\frac{dF^*(t)}{1-F^*(t)}}{1-F^*(t)}=-\frac{d}{dt}log(1-F^*(t))\\ (因为\frac{d}{dx}ln(1-f(x))=\frac{f'(x)}{1...

如何审稿期刊论文

发表于2022-01-25|科研经验|期刊审稿

之前审过几篇会议论文，但是对期刊的审稿还不是很了解。这次帮老师审阅一个期刊的文章，在这里把老师指导的几点期刊审阅经验进行总结。总体浏览期刊论文通常篇幅较长，审稿时候可以做的决断从好到坏有3个：minor revision, major revision (有些期刊为reject & resubmit), reject. 看完文章之后可以大概心里做个if-else的判断，是否直接reject 或者给作者修改机会。如果一个文章在idea, 实验，写作方面较差，则可以直接拒绝。或者一个文章虽然写得还行，但是期刊level 很高，文章不达到要求（比如理论不充足，没有足够多contribution)，也可以拒绝。当觉得文章还可以，值得给一个修改机会时候。审稿意见审稿意见通常包括两部分：一段summary, 总结文章研究内容+总体评价。第二部分是actionable comments。写期刊审稿意见时，应该侧重于给actionable comments, 即作者看完应该能知道怎么修改的comments。不要给模凌两可的意见或者一味批评而读者不知道如何改的意见。 action...

Ubuntu Apache 搭建WebDav网盘

发表于2022-01-20|技术分享|Linux

移动大法良心给了家庭宽带IPV6地址，从此能在里服务器快乐的挂着种子下视频，然后在世界任意角落通过IPV6地址访问看视频了（客户端IPV6地址可以用Cloudfare Warp或者VPS解决）。移动竟然没有对IPV6限速，我挂种子可以轻易跑出G口的网速。之前家里的NAS是用SMB协议进行串流的，在局域网的时候SMB速度还行，但是变成公网之后SMB速度就太感人了。通过调研了FTP，SMB，WebDAV之后发现，WebDAV是在HTTP协议之上研发的，相比SMB有很好的文件传输效率，同时又有比FTP更高的安全性。因此研究如何在Ubuntu上部署WebDAV网盘，方便串流视频。自己测试表明WebDAV基本可以跑满带宽（50M），SMB协议则只有8M左右。 WebDAV SMB 在Ubuntu上使用的WebDAV的方法有多种：Apache2，Nginx，Caddy。Nginx和Caddy都需要额外安装模块才能实现最完整的WebDAV功能（下载、上传、修改），因此我推荐使用Apache部署WebDAV。安装apache2使用apt安装 apache2 sudo apt i...

海外解锁网易云音乐版权限制歌曲

发表于2022-01-20|技术分享|网易云音乐•破解

人在海外，还是喜欢熟悉的网易云音乐。毕竟是养了那么久的号，推荐的歌曲还是蛮符合我的胃口的，只可惜网易云许多歌曲在海外都无法播放，因此想着如何能解锁网易云。一开始直接想通过国内服务器搭建一个代理，但是国内VPS带宽实在捉急，听个无损都要缓冲，体验太差了。在网上搜索，发现有这样一个项目可以帮助我们解决问题：https://github.com/nondanee/UnblockNeteaseMusic 项目分析该项目的主要功能如下：为请求增加 X-Real-IP 参数解锁海外限制，支持指定网易云服务器 IP 使用 QQ / 虾米 / 百度 / 酷狗 / 酷我 / 咪咕 / JOOX 音源替换变灰歌曲链接完整的流量代理功能 (HTTP / HTTPS)，可直接作为系统代理 (同时支持 PAC) 功能1是我研究这个项目的初衷，我希望能在不用翻回国的情况下解锁网易云的海外限制。通过这个项目看来，网易云是通过X-Real-IP这个请求头来判断IP的。稍微熟悉网络安全的同学都知道，取IP应该用 REMOTE_ADDR，这个是不可伪造的，而X-Real-IP和X-Forward都是可...

Graph Attention Multi-Layer Perceptron

发表于2021-10-13|论文笔记|图神经网络•分布式计算

Motivation The size of the K-hop neighbors grows exponentially to the number of GNN layers (High Memory Cost). GNN has to read great amount of data of neighboring nodes to compute the single target node representation, leading to high communication cost in a distributed environment (High Communication Cost). GNN的每一次特征传播都需要拉取邻居特征，对于k层的GNN来说，每个节点需要拉取的k跳以内邻居节点特征随着层数增加以指数增加，会占用大量内存。对于稠密的连通图，每个节点在每次训练的时候几乎需要拉取全图的节点信息，造成海量的通信开销。 A commonly used approach to tackle the issues is sampling. The s...