KID Lab

Email Security Level Classification of Imbalanced Data Using Artificial Neural Network

利用電子郵件的傳遞訊息較以往書信連絡更為方便，但是電子郵件的方便也容易造成機密資訊外流的問題，尤其是在公司內部的電子郵件。透過資料探勘的文本分析，可以有效的幫電子郵件做出機密等級的分類。
在此篇研究中，我們利用類神經網路提取每封電子郵件資訊並將電子郵件表示成多維度的文本向量(document vector)，以文本向量做為電子郵件的特徵，如圖一所示，不同於以往的單字元(unigram)訓練，我們採取了雙字元(bigram)來進行文本的斷字及前處理，再用以訓練文本向量，我們再使用深層類神經網路將電子郵件根據文本向量去學習並分類成不同的機密程度，如圖二所示。此外，因為越高機密等級的文件數量相對稀少，所以資料分布呈現不平衡的狀況，我們採取將不平衡的資料向下取樣，再利用類神經網路學習各個機密程度標籤相對應的文本向量，我們也實際與市面上的公司合作，在公司真實的電子郵件試驗我們的方法，實驗結果也顯示我們所提取之電子郵件特徵的方法較其他方法更為優異，也更適合用於做為電子郵件機密等級分類的特徵。

圖(一)、Email文本向量訓練

圖(二)、E-mail安全等級分類類神經網路

J.-W. Huang, C.-W. Chiang and J.-W. Chang, "Email Security Level Classification of Imbalanced Data Using Artificial Neural Network: The Real Case in a World-leading Enterprise," Engineering Applications of Artificial Intelligence, Vol. 75, pp. 11-21, 2018.

Back