YoQ Blog

「反者道之动, 弱者道之用」

大模型 Perplexity 详解

困惑度计算

交叉熵损失函数详解

Cross Entropy Loss 原理、推导与实现

1. 交叉熵简介 交叉熵 (Cross Entropy) 源自信息论,要理解它需要先了解几个基本概念。 1.1 信息量与熵 信息量衡量一个事件发生时带来的”惊讶程度”。事件 $x$ 的信息量定义为: \[I(x) = -\log p(x)\] 香农熵 (Shannon Entropy) 是信息量的期望值,衡量随机变量的不确定性: \[H(p) = -\sum_{x} p(x) \...

激活函数之 Sigmoid 函数

十分钟深入理解 Sigmoid 函数的设计原理

和 Softmax 区别 Sigmoid 函数详解 一种 非线性 激活函数, 常用于求解输出结果的概率分布. 函数曲线 从上图可以直观得到以下信息: Sigmoid 函数的值域范围在 0~1 之间, 当 x=0 时候, y=0.5 当自变量趋于正负无穷时, 函数的导数或者说梯度接近 0 函数定义 \[\sigma(z) = \frac{1}{1 + ...

最小二乘法详解

Least Square Method 从原理到实现

最小二乘法简介 最小二乘法(Least Square Method)是数学和统计学中最基本的参数估计方法之一。其核心思想是:通过最小化残差的平方和,找到最优的模型参数,使得模型的预测值尽可能接近真实观测值。 最小二乘法最早由法国数学家 Legendre 于 1805 年提出,随后 Gauss 独立发展了该方法并给出了更完善的理论基础。时至今日,最小二乘法仍然是统计学、信号处理和机器学习中...

激活函数之 Softmax 函数

十分钟深入理解 softmax 函数的设计原理

Softmax 函数详解 函数简介 在数学(尤其是概率论及其相关学科)领域中, Softmax 函数, 或称 归一化指数函数, 是 逻辑斯谛函数 的一种推广. Softmax 函数是一种 多元非线性 激活函数, 常用于求解输出结果的概率分布. 与其它单变量非线性激活函数 (例如 ReLU, Tanh, Sigmoid 等) 不属于同一类别. 多元 也就意味着没...

古文赏析

古之立大事者,不惟有超世之才,亦必有坚忍不拔之志

古之立大事者,不惟有超世之才,亦必有坚忍不拔之志。昔禹之治水,凿龙门,决大河而放之海。方其功之未成也,盖亦有溃冒冲突可畏之患;惟能前知其当然,事至不惧,而徐为之图,是以得至於成功。

大模型 InternLM2 详解

对应模型: https://huggingface.co/internlm/internlm2_5-1_8b-chat InternLM2 模型结构: LLaMA + GQA InternLM2模型结构 InternLM2采用了LLaMA的模型结构,并且和LLaMA一样,使用了GQA。LLaMA大家都比较熟悉了,就不再重复说明了。不过比较有意思的是,为了提高Tensor Paralle...

理解 RMSNorm

Root Mean Square Layer Normalization 原理与实现

RMSNorm 介绍 RMSNorm(Root Mean Square Layer Normalization)由 Zhang & Sennrich 在 2019 年提出,是 LayerNorm 的一种简化变体。 LayerNorm 包含两个操作:re-centering(减去均值)和 re-scaling(除以标准差)。RMSNorm 的核心发现是:re-centering 对...

解决光标消失问题

使用 Terminal 时会偶尔遇到光标消失的问题。 1 2 echo -e "\033[?25h" # 显示光标 echo -e "\033[?25l" # 隐藏光标

Transformer 中 Encoder-Decoder 的区别

From Attention Is All You Need

训练时的区别 什么? 推理上的区别 在Transformer模型的推理过程中,编码器(encoder)和解码器(decoder)的执行次数如下: Encoder(编码器): 执行一次。编码器将整个输入序列(例如源语言句子)一次性处理,生成所有位置的上下文表示。无论输入序列多长,编码器仅需运行一次。 Decoder(解码器): 执行N次,其中N是输出...