Home
 

Data Stream Mining

Progressive Sequential Pattern Mining Across Multiple Data Streams


   循序序列探勘目的是找到頻繁出現且帶有時間順序性的資料序列,但是當一個資料庫的循序關聯規則被產生之後,因為資料庫內舊有的太多資料造成新進的資料很可能會不被判定為頻繁循序序列,採取漸進式循序序列探勘可以解決這個問題,透過刪除過時的項目意在找到最新的頻繁循序序列。另外,若序列來自於多個資料串流,如圖一所示,假設每一個不同分店或地點的商店都會有各自的顧客購買紀錄,一個資料流就代表一間店,顧客在不同地點或分店購買商品的資料就會形成一個多資料串流的形式,在當我們考慮跨多個資料串流來探勘循序序列時,會造成在維護和更新現有循序序列上的困難,過去的演算法不能有效率的計算頻繁循序序列,所以在這個研究中,我們提出了PSP-AMS演算法來解決這個問題。
   PSP-AMS演算法中包含了一個新穎的資料結構-PSP-MS樹,使用這個結構儲存資料項目,我們可以有效的插入新資料項目、更新當前項目和刪除過時項目,PSP-AMS透過追蹤PSP-MS樹也可以有效的探勘跨多個資料串流的頻繁循序序列。實驗結果表明,PSP-AMS在跨多資料串流頻繁循序序列探勘上明顯優於以前的漸進探勘演算法。

圖一、跨多資料串流循序樣式

  • B. P. Jaysawal, and J.-W. Huang, "Progressive Sequential Pattern Mining Across Multiple Data Streams," ACM Transactions on Knowledge Discovery from Data, accepted, 2018.


© Knowledge and Information Discovery Lab, National Cheng Kung University. Last update: 2019/10/01