安全学术圈 09月12日
加密恶意流量特征工程新思路
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种针对加密恶意流量分析的新型特征设计思路,旨在解决加密流量特征维度减少和挖掘深度有限的问题。文章将传统加密流量特征分为协议相关和协议无关数值特征,并针对其优缺点,提出了一种特定加密流量特征(Enc Feature)创建方法。Enc Feature通过分析加密会话及其数据包的特性,从会话层和数据包层两个粒度提取仅存在于加密流量中的特征,兼顾了协议无关性和多维度信息。文章还构建了一个融合深度学习与传统机器学习算法的两层检测框架,并整合多个公共数据集构建了一个更具代表性的新数据集。实验结果表明,该方法在性能上优于ResNet、随机森林等经典方法。

🔍 文章将传统加密流量特征分为协议相关和协议无关数值特征,分析了各自的优缺点。协议相关特征针对特定协议提取,分辨力强但难以推广;协议无关特征通用性强但分辨力不高。

📊 提出了特定加密流量特征(Enc Feature)创建方法,通过分析加密会话及其数据包的特性,从会话层和数据包层两个粒度提取仅存在于加密流量中的特征,兼顾了协议无关性和多维度信息。

🧠 Enc Feature的核心在于仅从加密会话中的加密数据包中提取特征,完全排除非加密数据包,从而提取纯粹反映加密流量行为的特征。最终提取78个Enc特征,包括会话级特征、包级特征和通过统计运算生成的特征。

🔗 文章还构建了一个融合深度学习与传统机器学习算法的两层检测框架。第一层根据特征类型分别输入不同模型:时间相关特征输入RNN模型,基于负载的侧信道特征被编码为二维图像输入CNN模型,传统协议无关特征与Enc特征之间的比值型特征输入传统机器学习模型。第二层检测器由Random Forest或平均集成方法构建。

📚 为了提升流量数据的多样性,文章从6个公共数据集中整合构建了新的加密流量数据集,包括CTU-Malware-Capture、Benign-Capture、Mixture-Capture、CICIDS2017、CICIDS2012和CIRA-CIC-DoHBRW-2020。

原创 孙汉林 2025-09-10 23:02 四川

本文做了详细的特征工程,提出了一种面向加密恶意流量分析的新型特征设计思路。

原文标题:Feature Mining for Encrypted Malicious Traffic  Detection with Deep Learning and Other Machine  Learning Algorithms原文作者:Zihao Wang, Vrizlynn L. L. Thing原文链接:https://www.sciencedirect.com/science/article/abs/pii/S0167404823000536发表期刊:Computers & Security, 2023笔记作者:孙汉林@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈

1、引言相比于机器学习模型,特征工程对于加密恶意流量的识别具有更加重要的作用,现有研究多采用协议无关的侧信道特征,这些特征对所有流量一视同仁,不能充分表征不同加密流量。恶意流量经过加密后,可用的特征维度显著减少,具有强判别能力的特征更是稀缺,特征数量不足与挖掘深度有限已成为制约加密恶意流量检测的关键瓶颈。

针对此,本文做了详细的特征工程,提出了一种面向加密恶意流量分析的新型特征设计思路。并在此基础上,构建了一个融合深度学习与传统机器学习算法的两层检测框架,同时为了更好的发挥深度学习的优势,本文还整合多个公共数据集构建了一个更具代表性的新数据集。实验结果表明,其性能优于ResNet、随机森林等经典方法。

2、特征分析本文将传统的加密流量特征类型分为两大类,即协议相关性特征(Protocol-specific Features)与协议无关数值特征(Protocol-agnostic Numerical Features)。

协议相关特征:协议相关特征是针对特定加密协议(如TLS/SSL)提取的特征,它们依赖于协议本身的结构信息,例如TLS/SSL中的版本类型、证书公钥均值、证书有效期均值等。该类特征因粒度较细,提取过程较为耗时。通常情况下这类特征对特定协议具有较强分辨力,但难以推广至其它协议。

协议无关数值特征:协议无关特征不依赖于具体的加密协议,具有更强的通用性。例如,负载大小、生存时间和流持续时间等。此外,这类特征又可细分为两种:基于数据包的特征基于会话的特征。前者针对单个数据包提取,如数据包的载荷长度、到达时间间隔等;后者针对整个会话流提取,如每个会话的持续时间、总字节数等。这类特征虽然容易普及,但分辨力不高。

基于上述两类特征的优缺点,本文提出了一种新型的加密流量特征创建方法,特定加密流量特征(Enc Feature),该方法专为加密流量设计,通过分析加密会话及其数据包的特性,从会话层和数据包层两个粒度提取仅存在于加密流量中的特征。

此前的研究往往不区分加密与非加密流量,使用相同的特征集进行分析,导致特征判别力下降。Enc Feature不仅具有协议无关性,同时兼顾会话层和数据包层信息,是目前唯一在这两个维度上同时针对加密流量设计的特征体系。

3、 Enc FeatureEnc Feature的核心在于仅从加密会话中的加密数据包中提取特征,完全排除非加密数据包(如TLS中的握手阶段数据包),从而提取纯粹反映加密流量行为的特征。该流程分为两个步骤:

过滤掉混合数据集中所有非加密会话;

从加密会话中剔除所有非加密数据包。

最终提取78个Enc特征,包括会话级特征(No.4–23)、包级特征(No.1–3, 24),以及通过统计运算生成的特征(No.25–78)。此外,本文还将Enc Feature与传统协议无关特征结合,例如,传统流持续时间与仅基于加密包的流持续时间比值,IP总包长与加密IP包长度比值,从而拓展了加密流量的特征维度(No.79–143)。具体特征如表I所示,与现有方法区别如表II和III所示。

4、实验设计4.1 检测框架本文结合深度学习与传统机器学习算法,提出了一个两层加密恶意流量检测框架。框架中根据特征类型将其分别输入不同模型:

时间相关特征输入RNN模型(如GRU、LSTM)

基于负载的侧信道特征被编码为二维图像输入CNN模型(如ResNet)

传统协议无关特征与Enc特征之间的比值型特征输入传统机器学习模型(如Random Forest、XGBoost)。

第一层由上述各模型中性能最优者构成,其输出的概率结果作为输入传递给第二层检测器。第二层检测器由Random Forest或平均集成方法构建,依据不同评估指标的重要性决定最终选择。

4.2 数据集为提升流量数据的多样性,本文从6个公共数据集中整合构建了新的加密流量数据集。该数据集包括Stratosphere Lab发布的CTU-Malware-Capture、Benign-Capture与Mixture-Capture,以及加拿大网络安全研究所(CIC)发布的CICIDS2017、CICIDS2012和CIRA-CIC-DoHBRW-2020。其中,CTU数据集提供26类恶意流量,其他五个数据集则提供正常流量,以实现数据类别平衡和流量多样性最大化。

4.3 实验结果与总结本文提出了一种加密恶意流量检测框架,涵盖特征提取、模型训练及多层检测机制。首先,通过Wireshark过滤非加密流量,再从PCAP中提取300余种特征,包括时间相关特征、payload侧信道特征、自定义加密特征与比例特征。随后,针对不同特征类型选择最合适的模型进行训练:时间相关特征以15×85的格式输入LSTM模型,多层LSTM表现最佳;payload侧信道特征以15×38的二维数组形式输入ResNet模型,ResNet34表现最佳;加密与传统协议无关特征的比值特征输入传统模型训练,XGBoost略优于Random Forest。这三种模型的预测结果将输入第二层检测器,通过Random Forest或平均集成法实现最终判别。实验结果表明,若第二层采用Random Forest,TPR可达99.68%;若采用平均集成方法,则在准确率(99.73%)、F1值(99.72%)、精确率(99.89%)与最低误报率(0.11%)方面表现略优。

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com


专题最新征文


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

加密恶意流量 特征工程 深度学习 机器学习 网络安全
相关文章