Periodic Pattern Mining
Mining All Kinds of Periodic Patterns Simultaneously

  時間序列是在固定時間區間中蒐集的資料數值的集合,其反應了個體的行為。許多應用與時間序列有關,例如:某地的天氣狀況、超商的購物紀錄、用電量紀錄、電腦網路故障分析和生物資料集(DNA與蛋白質序列)。發掘重複發生的週期樣式可以觀察出時間序列資料的行為與未來趨勢,藉此達成更有效的策略抉擇。

  舉例來說,時間序列 ,其中在t1~t6之間有一個周期長度為2的週期樣式ab,此外,萬用字元「*」(wildcard) 代表任何項目,或者可被視為不重要的項目,在T之中也有兩個包含萬用字元的週期樣式,一個是在t1~t8之間周期長度為4的aba*,另一個則是在t8~t16之間周期長度為3的c*b。

  周期樣式的周期性可分為三種:完美週期(perfect)、部份週期(partial)以及非同步週期(asynchronous)。在一個給定的時間序列之中,從開始時間至結束時間,如果在兩個連續的樣式之間沒有任何間隔,則其週期性為完美週期。表一呈現週期長度為2但週期性不同的週期樣式,例如T = ababab包含周期長度為2且周期性為完美週期的樣式ab。但在真實世界中的時間序列經常包含一些異常,使得樣式出現在某些時間點而非所有的時間點。當一個樣式在某些時間點可能發生卻沒有發生時,我們稱其週期性為部份週期,例如表一中的時間序列T = ababacabcd包含了週期長度為2且周期性為部份週期的樣式ab。更進一步地,真實世界的資料甚至可能包含許多會中斷週期的noise和outlier,也就是說週期性可能未必同步。非同步週期性允許不同長度的間隔發生,如此便能處理兩個連續樣式之間的noise,例如表一中的時間序列T = abcabacabab,當最大間隔長度設定為2時,T則包含了週期長度為2且周期性為非同步週期的樣式ab。

 Back