【论文阅读】distilling cognitive backdoor patterns within an image

news/2025/2/25 21:02:53

本文是输入级别的后门检测

认知蒸馏(Cognitive Distillation, CD)用于提取和检测图像中的后门模式。

其核心思想是从输入图像中提取出对模型预测起决定性作用的“最小本质”。CD通过优化输入掩码,从输入图像中提取出一个小的模式,该模式能够导致模型输出相同的结果(例如,特征、logits或概率)。提取出的模式有助于理解模型在干净图像与后门图像上的认知机制,因此被称为认知模式(Cognitive Pattern, CP)。

通过CD和提取出的CPs,我们发现了一个有趣的现象:尽管不同攻击使用的触发器模式形式和大小各异,但后门样本的CPs却异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。因此,我们可以利用学习到的掩码来检测并从受污染的训练数据集中移除后门样本。

在本文中,我们提出了一种输入信息解耦方法,称为认知蒸馏(Cognitive Distillation, CD),用于提取输入图像中决定模型输出(例如特征、logits和概率)的最小模式。这一想法受到输入图像中既有有用特征也有无用特征这一事实的启发(Ilyas et al., 2019)。直观上,如果通过某种优化过程移除无用特征,有用的特征将被揭示出来,从而有助于理解原始输入的隐藏识别机制。CD通过优化输入掩码来移除输入中的冗余信息,同时确保模型仍然产生相同的输出。提取出的模式被称为认知模式(Cognitive Pattern, CP),直观上,它包含了模型预测所需的最小充足信息。

通过CD,我们发现了一个有趣的现象: 尽管大多数攻击使用的触发器模式覆盖整个图像,但后门样本的CPs异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。 因此,小的触发器模式可能足以进行有效的后门攻击。这一现有后门攻击的共同特征促使我们利用学习到的掩码来检测后门样本。此外,提取出的CPs和学习到的掩码可视化了不同攻击如何转移后门模型的注意力。

CD是自监督的

认知蒸馏

在这里插入图片描述
在这里插入图片描述
如图 1a 的第一列所示,后门模型上干净图像的掩码和 CP 较大且与主要对象语义相关。显然,模型似乎在利用图像中的真实内容进行预测。对于使用小补丁或分散像素作为触发模式的 3 种攻击(BadNets、Trojan 和 Dynamic),后门图像的 CP 揭示了它们的触发模式,掩码则突出了触发的关键部分。

其他 8 种攻击均采用全图像大小的触发模式,但它们的 CP 都异常小(在幅度上)、稀疏(分散的像素)且语义上无意义(偏离主要对象)。这表明模型确实在使用后门特征来预测类别标签。有趣的是,结果显示即使触发模式覆盖整个图像,推理过程中也仅涉及触发模式的一小部分。模型似乎不仅忽略了真实内容,还忽略了触发模式的大部分。我们推测这是因为后门相关性本质上比自然相关性更简单,因此模型不需要记住整个触发模式来学习后门相关性。相反,它倾向于从触发模式中找到最简单的线索来完成后门任务。这些简单的相关性在推理时绕过了对真实内容的感知,只要触发模式出现即可。

在这里插入图片描述

简化触发模式的攻击成功率(ASR)与原始触发模式的比较如图 1b 所示。显然,每个触发模式都可以被简化而不会(显著)降低 ASR。有趣的是,简化触发模式甚至略微提高了 FC、SIG 和 WaNet 攻击的 ASR。

总结来说,上述发现揭示了后门攻击的一个共同特征:无论触发模式如何,后门相关性都比自然相关性简单得多。因此,可以利用我们的 CD 蒸馏出的掩码大小来检测后门样本。

方法

t为 通过掩码大小来判断是否存在后门的 阈值

阈值确定:
在这里插入图片描述

证明提出的方法 对不同后门攻击 检测 的可行性
在这里插入图片描述


http://www.niftyadmin.cn/n/5865942.html

相关文章

java23种设计模式-外观模式

外观模式(Facade Pattern)学习笔记 🌟 定义 外观模式属于结构型设计模式,提供一个统一的接口来访问子系统中的多个接口。它通过定义一个高层接口简化客户端与复杂子系统的交互。 🎯 适用场景 为复杂子系统提供简单入…

从三个维度了解 RPC(Remote Procedure Call,远程过程调用)

1. 什么是远程调用 远程调用是指在分布式系统中,不同进程或服务之间通过网络进行通信和数据交换的过程。与本地调用不同,远程调用涉及跨越网络边界,通常需要处理网络延迟、传输协议、序列化/反序列化等问题。 特点: 跨进程通信…

wpf 页面切换的实现方式

第一种:点击左边显示右边 TreeView(左边) ContentControl(右边) ContentControl是Prism的 Region TreeView点击事件,在region里动态加载view 如: region.Add(view); 第二种&a…

【数据结构】(12) 反射、枚举、lambda 表达式

一、反射 1、反射机制定义及作用 反射是允许程序在运行时检查和操作类、方法、属性等的机制,能够动态地获取信息、调用方法等。换句话说,在编写程序时,不需要知道要操作的类的具体信息,而是在程序运行时获取和使用。 2、反射机制…

Linux | man 手册使用详解

注&#xff1a;本文为 “Linux man 手册” 相关文章合辑。 略作重排。 man 手册常用命令 1. 查看和搜索手册页 查看特定软件包的手册页&#xff0c;并使用 grep 命令过滤出包含特定关键字的行&#xff1a; man <package> | grep <keyword>在整个系统的手册页中…

七.智慧城市数据治理平台架构

一、整体架构概览 智慧城市数据治理平台架构描绘了一个全面的智慧城市数据治理平台&#xff0c;旨在实现城市数据的统一管理、共享和应用&#xff0c;为城市运行、管理和决策提供数据支撑。整体架构呈现出分层、模块化、集约化的特点&#xff0c;并强调数据安全和标准规范。 智…

linux--多进程基础(2)GDB多进程调试(面试会问)

将其中的命令记住就行。 总结&#xff1a;GDB下默认调试父进程&#xff0c;可以设置调试父进程还是子进程&#xff0c;也可以设置调试模式&#xff0c;调试模式默认是on即一个在调试另一个直接运行&#xff0c;off就是另一个进程挂起&#xff0c;最后可以查看调试进程 一般默认…

R Excel 文件:高效数据处理的利器

R Excel 文件:高效数据处理的利器 在数据分析领域,R语言因其强大的统计分析和可视化功能而备受推崇。而R Excel文件,作为R语言与Excel的桥梁,使得数据在R和Excel之间的高效转换成为可能。本文将详细介绍R Excel文件的概念、应用场景以及操作方法。 一、R Excel文件的概念…