【NLP 37、激活函数 ③ relu激活函数】

news/2025/2/25 18:19:35

—— 25.2.23

ReLU广泛应用于卷积神经网络(CNN)和全连接网络,尤其在图像分类(如ImageNet)、语音识别等领域表现优异。其高效性和非线性特性使其成为深度学习默认激活函数的首选

一、定义与数学表达式

ReLU(Rectified Linear Unit,修正线性单元)是一种分段线性激活函数,

其数学表达式为:ReLU(x)=max(0,x)

即当输入 x 大于 0 时,输出为 x;当 x≤0 时,输出为 0。


二、核心特点

非线性特性:通过引入分段线性特性,ReLU为神经网络引入非线性,使其能拟合复杂函数。

计算高效:仅通过阈值判断(x>0)即可完成计算,避免了指数运算(如Sigmoid、Tanh),显著提升速度。

缓解梯度消失:在 x>0 时梯度恒为 1,反向传播时梯度不会饱和,加速收敛。

稀疏激活性:负输入时输出为 0,导致部分神经元“休眠”,减少参数依赖和过拟合风险。


三、优点

简单高效:实现和计算成本低,适合深度网络。

收敛速度快:相比Sigmoid/Tanh,ReLU在训练中梯度更稳定,收敛更快。

非零中心性:输出范围为 [0,+∞),虽非严格零中心,但简化了优化过程


四、局限性

Dead ReLU问题:若神经元输入长期为负,梯度恒为 0,导致权重无法更新,神经元“死亡”。

非零中心性:输出偏向非负值,可能影响梯度下降效率。

对初始化敏感:若学习率过高,负输入区域可能使神经元永久失效。


五、变体

Leaky ReLU:允许负输入时输出 αx(α为小常数,如0.01)。

PReLU(Parametric ReLU):将 α 设为可学习参数,动态调整负区斜率。

ELU(Exponential Linear Unit):负输入时输出 α(ex−1),使输出均值接近零。

Swish:自门控激活函数,结合ReLU和Sigmoid特性,平滑且无上界。


六、代码示例

1.通过 nn.ReLU() 作为网络层

nn.ReLU() :PyTorch 中的修正线性单元(ReLU)激活函数模块,用于神经网络中引入非线性。其功能是将输入张量中所有负值置为 0,保留正值不变

参数名称类型是否必填说明
inplacebool是否原地操作(直接修改输入张量)。
默认值为 False,此时会返回新张量。若设为 True,则直接在原张量上操作。
import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的网络,包含两个线性层和 ReLU 激活
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(784, 256)  # 输入层:784 → 256
        self.relu = nn.ReLU()           # ReLU 激活层
        self.fc2 = nn.Linear(256, 10)   # 输出层:256 → 10(如分类任务)

    def forward(self, x):
        x = self.relu(self.fc1(x))  # 在第一层后应用 ReLU
        x = self.fc2(x)
        return x

# 初始化网络、损失函数和优化器
model = Net()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 输入数据示例(如 MNIST 图像,形状为 [batch_size, 784])
input_data = torch.randn(32, 784)

# 前向传播
output = model(input_data)
print(output.shape)  # 输出形状: (32, 10)

2. 直接使用 torch.relu() 函数

torch.relu(): PyTorch 中实现修正线性单元(ReLU)激活函数的函数

其数学表达式为:ReLU(x)=max(0,x)

参数名称类型是否必填说明
inplacebool是否原地修改输入张量。若为 True,则直接修改输入张量以节省内存;若为 False(默认),则返回新张量。
import torch

# 示例输入
x = torch.tensor([-1.0, 0.0, 1.0])

# 应用 ReLU 函数(非原地)
y = torch.relu(x)
print(y)  # 输出: tensor([0., 0., 1.])

# 应用 ReLU 函数(原地)
torch.relu_(x)
print(x)  # 输出: tensor([0., 0., 1.]),原始张量被修改[1,7](@ref)。


http://www.niftyadmin.cn/n/5865822.html

相关文章

IDEA创建Spring配置文件Spring Config的方法

作为刚刚开始学Spring框架的小白,而且我也是刚刚学怎么用idea,不会简单的操作也是很正常的是吧。这个问题其实只是我傻傻的不懂,是个很简单的问题,我现在把它记录下来。 在idea创建maven项目后,我们在左边右键新建xml文…

[AI相关]问问DeepSeek如何基于Python,moviePy实现视频字幕功能

最多3个问题,必然命中目标 遇事不决先问问DeepSeek 我个人对Python和一些库,一些第三方工具都不是很了解的,所以, 问:”python videopy 能作什么"//不但英文写错了,中文应该都写错了。。。。 一如既…

作业day5

封装一个mystring类 拥有私有成员: char* p int len 需要让以下代码编译通过,并实现对应功能 mystring str "hello" mystring ptr; ptr.copy(str) ptr.append(str) ptr.show() 输出ptr代表的字符串 ptr.compare(str) 比较ptr和str是否一样 pt…

【关于seisimic unix中使用suedit指令无法保存问题】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、如何修改头文件二、出现的问题尝试解决使用ls显示文件属性使用chmod修改文件属性 总结 前言 提示:这里可以添加本文要记录的大概内容&#xff…

【行业解决方案篇二】【当图神经网络成为“金融侦探”:DeepSeek反洗钱系统技术全解】

一、为什么传统反洗钱系统像“拿着渔网捞针”? 金融犯罪每年造成全球8万亿美元损失,而传统规则引擎存在三大致命伤: 规则滞后:依赖人工设定的固定阈值(如单日转账>50万触发警报),黑产通过“化整为零”轻松绕过关联缺失:仅分析单笔交易,无法识别多层嵌套的“资金迷…

20250223下载并制作RTX2080Ti显卡的显存的测试工具mats

20250223下载并制作RTX2080Ti显卡的显存的测试工具mats 2025/2/23 23:23 缘起:我使用X99的主板,使用二手的RTX2080Ti显卡【显存22GB版本,准备学习AI的】 但是半年后发现看大码率的视频容易花屏,最初以为是WIN10经常更换显卡/来回更…

19、《Springboot+MongoDB整合:玩转文档型数据库》

SpringbootMongoDB整合:玩转文档型数据库 摘要:本文全面讲解Spring Boot与MongoDB的整合实践,涵盖环境搭建、CRUD操作、聚合查询、事务管理、性能优化等核心内容。通过15个典型代码示例,演示如何高效操作文档数据库,深…

计算机毕业设计程序,定制开发服务

我们擅长的开发语言包括Python、C、Golang、Java,以及前端技术如HTML、CSS、JS和Vue。我们的服务内容丰富,能够满足您各种需求,无论是简单的功能开发还是复杂的定制项目,我们都能为您提供专业支持。若有具体需求可联系作者。 链接…