安全学术圈 09月19日
MIETT:利用双层注意力机制提升加密流量分类性能
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种名为MIETT(Multi-Instance Encrypted Traffic Transformer)的新型模型,旨在解决加密流量分类中的挑战。MIETT引入了双层注意力机制(TLA),包括数据包注意力和流注意力,能够有效捕捉加密流量中的token级和数据包级特征,弥补了现有方法仅关注单个数据包内部特征或忽略数据包间关联性的不足。此外,MIETT还设计了掩码流预测(MFP)、数据包相对位置预测(PRPP)和流对比学习(FCL)三个预训练任务,以更全面地学习流量结构和区分不同流。实验结果表明,MIETT在多个公开数据集上显著优于现有方法,在提高分类准确率和F1分数方面表现出色。

💡 **MIETT模型与双层注意力机制:** MIETT提出了一种新颖的多实例Transformer架构,核心在于其双层注意力机制(TLA)。第一层数据包注意力通过多头自注意力(MHSA)捕捉单个数据包内部token间的关联;第二层流注意力则在每个token位置上跨多个数据包进行自注意力建模,有效捕捉不同数据包间的依赖关系。这种分层设计在保留局部特征的同时,也能有效地捕捉全局结构,并且能大幅降低计算复杂度,使其能够更有效地处理加密流量。

🚀 **创新的预训练任务:** 为了增强模型的表征能力,MIETT引入了三个新型预训练任务:掩码流预测(MFP)通过预测被遮蔽的token来帮助模型理解流的结构和依赖;数据包相对位置预测(PRPP)训练模型理解数据包在流中的时序关系;流对比学习(FCL)则通过拉近同一流内数据包的嵌入距离、推开不同流数据包的嵌入距离,来提升模型区分不同流量流的能力。这些任务共同作用,使模型能够更准确地表示流的结构并区分不同流的数据包。

📈 **显著的实验性能提升:** MIETT在ISCXVPN 2016、ISCXTor 2016、CrossPlatform和CIC IoT Dataset 2023等多个加密流量分类数据集上进行了广泛的实验评估。结果显示,MIETT在准确率和F1分数上均显著优于包括ET-BERT在内的多种现有基准方法,特别是在CrossPlatform (Android)数据集上,准确率提升了8.27%,F1分数提升了14.66%。这有力地证明了MIETT在加密流量分类任务上的优越性和有效性。

原创 宋坤书 2025-09-18 18:53 四川

本文提出了一种面向加密流量分类的多实例,通过结合数据包注意力和流注意力双层注意力机制捕捉token级和数据包级特征。

原文标题:MIETT: Multi-Instance Encrypted Traffic Transformer for Encrypted Traffic Classification原文作者:Xuyang Chen, Lu Han, Dechuan Zhan, Hanjia Ye原文链接:https://doi.org/10.1609/aaai.v39i15.33748发表会议:AAAI笔记作者:宋坤书@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈

1、研究背景由于加密技术的普及,传统基于端口或统计特征的分类方法逐渐失效,而深度学习通过自动提取原始数据中的特征在一定程度上提升了分类效果,但其高度依赖于大量标注数据。

近年来兴起的基础模型则可以根据大量未标记数据进行预训练,并针对特定任务进行微调,但现有方法主要侧重于单个数据包内部特征的建模,往往忽略了数据包之间的关联性,难以有效捕捉更高层次的流级交互特征。同时,由于加密流量中的token语义信息有限,仅依赖token级特征容易丢失流量的整体模式和跨数据包的全局关系,导致对流量行为的表征能力受限。

为此,本文提出了一种面向加密流量分类的多实例Transformer(Multi-Instance Encrypted Traffic Transformer, MIETT),通过结合数据包注意力和流注意力双层注意力机制(Two-Level Attention, TLA)捕捉token级和数据包级特征。本文还引入了掩码流预测 (MFP)、数据包相对位置预测(Packet Relative Position Prediction, PRPP)和流对比学习(Flow Contrastive Learning, FCL)这三个预训练任务,以更准确地表示流的结构并区分来自不同流的数据包。实验结果表明,所提出方法在加密流量分类任务中相较于现有方法具有更优的性能表现。

2、MIETT模型架构2.1 MIETT编码MIETT架构中多实例流量数据的表示方法,主要包括tokenization、packet representation和flow representation三个关键步骤。首先,tokenization阶段通过对流量的十六进制序列进行bi-gram分词,每两个字节作为一个基本单元,再使用BPE进行编码,生成用于模型训练的token序列;然后,packet representation阶段将每个数据包表示为一个以[CLS]开头的token序列,并固定每个包的长度为128个token;最后,flow representation阶段将多个数据包的表示堆叠成一个三维张量,其中为数据包数量,为数据包长度,为嵌入维度。

2.2 MIETT总体架构传统方法在将二维的流量token映射为一维输入时,容易丢失数据包顺序等时间信息,且计算复杂度随包数量和长度增长迅速上升。因此,MIETT引入TLA架构以保留流量的层次结构并提高计算效率,使其可以更有效地捕捉数据包内和数据包间的依赖关系。TLA层架构如下图:

MIETT首先通过编码器将流量中的每个数据包表示为固定长度的token序列,多个数据包组成的流量则构成一个三维张量;随后,这个流量表示输入多个TLA层进行特征提取,而TLA则由两部分组成:第一层是数据包注意力(Packet Attention)机制,通过多头自注意力(Multi-Head Self-Attention, MHSA)机制捕捉单个包内不同token的关联关系;第二层是流注意力(Flow Attention)机制,在每个token位置上跨多个数据包进行自注意力建模,从而捕捉不同数据包之间的依赖关系。这种分层机制既保留了局部特征,又捕捉了全局结构。这种设计在有效建模复杂加密流量特征的同时,大幅降低了计算复杂度。

3、模型训练MIETT模型的训练包括预训练和微调两个阶段:预训练阶段通过三个任务(MFP、PRPP和FCL)来帮助模型学习流量依赖、包序关系和流量特征差异;微调阶段则进一步优化模型,用于加密流量的最终分类。

3.1 预训练阶段MIETT模型由多个TLA层组成,能有效捕捉数据包级和流级信息。预训练阶段,采用预训练的ET-BERT作为数据包注意力模块并保持冻结,同时训练流注意力模块以学习流的整体结构和依赖关系,实现对流级信息的强化。本文提出了三个预训练任务来强化模型性能,其结构如下图:

MFP任务:通过随机遮蔽流中15%的token,训练模型利用未遮蔽的上下文预测被遮蔽内容,从而提升模型处理不完整流量信息的能力,帮助捕捉流的结构和依赖关系。

PRPP任务:基于从每个数据包中提取的[CLS]嵌入,预测包在流中的相对顺序,帮助模型理解包的时序关系。PRPP通过线性变换和激活函数处理[CLS]嵌入,再计算包对间顺序的概率分布,并通过交叉熵损失与真实顺序进行比较,优化模型预测准确性。

FCL任务:通过学习鲁棒的表示,增强模型区分不同流量流的能力。FCL使同一流中的包(正样本)在嵌入空间中更相似,不同流中的包(负样本)则更不相似,且比较基于相同包位置以保持一致性。具体方法是对每个包的[CLS]嵌入先经过MLP处理,再利用余弦相似度计算包间相似性,最后通过对比损失优化模型区分正负样本的能力。

预训练阶段的最终损失是以上三个损失的加权和:

αβ

3.2 微调阶段微调阶段的目标是将输入流量准确分类,在经过多个TLA层后,提取所有数据包的[CLS]嵌入向量,并通过平均池化聚合成整个流量的表示,该表示再经过MLP生成最终的分类结果。微调过程中,整个模型(包括此前冻结的数据包编码器和流编码器)均参与训练,采用最小化交叉熵损失的方式进行优化。

4、实验评估4.1 实验设置本文在ISCXVPN 2016、ISCXTor 2016、CrossPlatform(包含两个子集)和CIC IoT Dataset 2023五个加密流量分类数据集上评估所提出的方法。在预训练阶段使用通过Netbench预处理的五个数据集的训练集(不含标签),微调阶段根据不同任务进行分类,数据按8:1:1划分为训练集、验证集和测试集。在对比实验中,本文将所提出的方法和七种基准方法进行了比较。数据集的基本信息统计如下:

在预训练阶段,训练步数设置为150000步,并从前10个包中随机选取5个进行训练,MFP掩码比例为15%,MFP和PRPP任务权重均为0.2。在微调阶段,使用前5个包训练30个epoch。对于这两个阶段统一设置数据包长度为128,包数为5,嵌入维度为768,TLA层数为12,学习率为,优化器采用AdamW,所有实验均在配备两块 NVIDIA RTX A6000 GPU的服务器上进行。

4.2 实验结果本文的主要评估指标为准确率和F1分数,实验结果表明,传统深度学习方法(如DataNet、DeepPacket、FS-Net等)在复杂数据集上泛化能力较差,尤其在CrossPlatform等多类别数据上F1分数较低。而MIETT模型在所有数据集上均显著提升了准确率和F1分数,尤其在CrossPlatform (Android)上,相较ET-BERT准确率提升8.27%,F1分数提升14.66%,验证了其对加密流量的有效建模能力。不同分类方法的性能对比如下:

5、本文贡献提出了一种新颖的多实例加密流量转换器(MIETT)架构,并引入了双层注意力机制 (TLA),以有效捕捉流量流中token级和数据包级的关系。

引入了两项新型的预训练任务:数据包相对位置预测(PRPP)和流对比学习(FCL)。PRPP任务增强了模型对流内数据包顺序的理解,而FCL任务则提高了模型区分来自同一流和不同流的数据包的能力。

对所提出的MIETT模型在多个数据集上进行了广泛的实验验证,结果表明其分类性能优于多种现有方法。

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com


专题最新征文


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

加密流量分类 MIETT Transformer 双层注意力机制 深度学习 Encrypted Traffic Classification MIETT Transformer Dual-Layer Attention Deep Learning
相关文章