隨著威脅參與者不斷發展其策略和技術(例如,在加密流量中隱藏攻擊),保護組織變得越來越具有挑戰性。
機器學習加密流量分析
為了幫助解決這些問題,許多網絡安全和運營團隊更多地依賴機器學習技術來識別網絡流量中的故障、異常和威脅。但隨著加密流量日益成為常態,傳統的機器學習技術也需要發展。在本文中,我想看看今天使用的機器學習模型的類型,并探索如何將它們與Deep Packet Dynamics(DPD)技術配對,以了解可能隱藏在加密流量中的威脅。
要成功使用機器學習、NOC和SOC團隊,需要三件事:數據收集、數據工程和模型評分。
數據收集涉及直接從網絡數據包流中提取元數據。數據工程是將原始數據移動到正確的位置并將其轉換為模型輸入的過程。這包括數據標準化和功能創建等任務。模型評分是將機器學習算法應用于數據的最后階段。這包括訓練和測試模型的必要步驟。
從歷史上看,機器學習一直依賴于批處理模型。對于花園式大數據,傳統的數據管道運行良好。模型使用歷史回顧性數據進行離線訓練。稍后,它將部署在已保存以供分析的數據上。
它的工作原理是這樣的:首先,團隊創建了一個高度工程化的數據管道,將所有數據移植回一個巨大的數據湖中。接下來,通過運行查詢和預處理腳本來創建歷史要素。最后,在大量數據集合上訓練模型。準備就緒后,訓練的模型將移動到生產環境,這需要將每個數據處理步驟轉換為面向外部的應用程序。
存儲和處理大量數據(即需要專用工具進行存儲和處理的“大”數據,而不是以傳統數據庫記錄格式存儲)的成本可能過高,這可能會使人望而卻步。這種機器學習方法需要大量的擴展和資源。它對于具有較大時間范圍的模型開發和預測模型非常有用。
但是,隨著網絡流量的增長,有一種較新的替代方案稱為流式機器學習。它利用的資源占用空間要小得多,同時超過了最高帶寬網絡的性能要求。當與加密流量分析相結合時,組織擁有一個強大的工具,可以提供有關網絡威脅的可見性。從歷史上看,對網絡流量的研究是使用深度數據包檢測(DPI)完成的,但是隨著越來越多的流量現在被加密,它變得越來越沒有用處。這推動了市場采用一種稱為Deep Packet Dynamics(DPD)的新技術,該技術提供了豐富的元數據集,無需有效載荷檢查即可完成。
DPD功能包括流量特征,如生產者/使用者比率、抖動、RST、重新傳輸、數據包長度和時間序列(SPLT)、字節分布、連接設置時間、往返時間等。它提供了非常適合機器學習的高級功能,并且可以有效地識別簡單和增強方法無法捕獲的模式和異常。但它們不能以追溯方式計算,它們必須在流量實時流經時捕獲。這種形式的密碼分析通過消除解密和檢查流量的處理密集型中間人(MITM)技術來增強隱私。
通過將流式處理機器學習與DPD相結合,SOC和NOC團隊可以更輕松地實時檢測高級威脅。例如,這種方法可以發現網絡上正在進行的勒索軟件攻擊,包括橫向移動,高級網絡釣魚和水坑攻擊,內部威脅活動等等。這種方法還消除了加密盲區,并恢復了網絡防御者的可見性。
到2025年,幾乎所有的網絡流量都將被加密。隨著加密的增長(以及新的威脅),組織必須更加依賴流式機器學習(包括機器學習引擎)和加密流量分析,以獲得對異常流量的必要可見性。沒有它,攻擊者將繼續繞過傳統的安全機制,隱藏在加密中,并成功完成攻擊。