/ 99/ 20
Attention-based LSTM Model for
Time Series Fault Detection
QnSSY
변우석 & 유재홍
/ 99
1
팀원 소개
변우석
한동대학교 생명과학, 컴퓨터 공학 졸업
유재홍
한동대학교 컴퓨터 공학, 수학통계 졸업
/ 99
2
목차
I. 프로젝트 개요
II. 활용 데이터
IV.실험 평가
V. 활용 계획 기대효과
1. 문제 정의와 해결 방법
2. 해석 가능한 모델
1. 성능 벤치마크
2. 평가지표
3. 제안 모델 성능
1. 활용 데이터셋
2. 데이터 전처리
1. 결론
2. 고찰 향후 연구
III. 모델 개발 방법
1. 모델 제안 구조
/ 99
3
제안 개요
I
소변 혼합물 샘플 진단기살균기 Fault!
문제 정의
-채혈하지 않더라도 원격의료가 가능한 Smart Urine Sensor개발하고 있으며, 이를 위한 전단계로 소변 혼합물의
살균필요함.
-그러나, 살균 과정에서 불량으로 인한 오차가 발생하여 진단 올바른 의사결정에 악영향을 끼칠 있음
/ 99
4
제안 개요
I
해결 방법 목적
-데이터를 수집하는 시스템의 이상 상태를 실시간으로 신속하게 진단할 있는 시계열 모델 개발
-시점에 특정 변수가 예측에 얼마나 기여했는지 설명 가능한 모델 (Explainable AI) 개발
센서 데이터
양품/불량 이진 분류
변수와 시점 중요도
/ 99
5
제안 배경
I
기존 딥러닝의 한계점
-딥러닝 모델은 블랙박스 모델로 예측에 대한 설명을 제공하지 못함
-불량 검출 (Fault detection) 문제의 경우 정확한 예측도 중요하지만 모델 해석도
정적으로 중요함
설명 가능한 모델이란?
-해석 가능한 모델: 모델로부터 특정 분야의 지식을 얻을 있음. Ex) Flux balance
analysis, Structural equation modeling
-설명 가능한 모델: 모델이 결과물이 생성되는 과정을 설명할 있음
SHapley
Additive
exPlanations
/ 99
6
활용 데이터셋
II
넵튠코리아 소변 혼합물 살균 데이터셋
-살균 온도와 살균 상태에 따른 양품/불량 여부 판별 데이터
-202034일부터 20201111일까지 223일을 30분과 1간격으로 수집되었음
- 210,794중에 양품이 133,010(63.09%), 불량이 77,784(36.90%)적당히 균형적인 데이터셋임
/ 99
7
활용 데이터셋
II
데이터 전처리
-결측값은 Forward linear interpolation이용하여 대체하였음
-학습, 검증 그리고 평가 데이터는 62-13-25 분할로 나누었으며 학습 데이터는 검증 그리고
평가 데이터보다 이전에 관찰되도록 순차적으로 분할하였음
-데이터 정규화를 위해 표준화(Standardization)하였으며 데이터 누수를 피하기 위해 학습,
검증 그리고 평가 데이터로 나눈 후에 훈련 데이터의 평균과 표준 편차를 사용함
-연속적인 시퀀스를 120 크기와 60 보폭을 가진 슬라이딩 윈도우를 이용하여 데이터를 나눔
/ 99
-Sequence-to-sequence classification 문제를 위한 시계
모델
- Spatial 그리고 Temporal attention block다변량 시계
데이터를 받아 동일한 차원을 가진 Embedding 행렬을
출력함
-Embedding 행렬은 합쳐진 , 순환 유닛에 의해 처리
- Spatial attention시점 t마다 변수 중요도를 계산하며
Temporal attention시점간의 영향을 계산함
8
제안 모델 구조도
III
x1x2x3x
T
Spatial Attention Block
Multivariate
time series inputs
Temporal Attention Block
d1d2d3d
T
l1l2l3l
T
Temporal
embedding
Spatial
embedding
Recurrent
cell unit
y1y2y3y
T
Cell Cell Cell Cell
Prediction
output
/ 99
9
제안 모델 구조도
III
x1x2x3x
T
Permute and Feed-forward Layers
- Kaji
et al
., 2019Gandin
et al
., 2021 논문에서 사용된
“Attention-like” mechanism을 재현하였음
-간단한 순방향 신경망을 통해 Attention weight matrix
A
T
x
p
= [ a1a2… a
T
]계산함
a1a2a3a
T
d1d2d3d
T
Spatial Attention Block
Spatial Attention Block
/ 99
x
+
x
10
제안 모델 구조도
III Temporal Attention Block
x1x2x3x
T
x x
l1l2l3l
T
A31 A32 A33 A3
T
Causal
Temporal Attention Block
q3q3q3q3
k
T
k3
k2
k1
- Encoder-Decoder 모델에 사용되는 Self-attention
mechanism사용함
-시점마다 T개의 Attention weight계산하기
문에 Weight matrixA
T
x
T
= [ a1a2… a
T
]크기
가짐
- Attention과거만 있도록 Matrix AUpper
triangleMasking하였음
/ 99
x
+
x
11
제안 모델 구조도
III Temporal Attention Block
x1x2x3x
T
x x
l1l2l3l
T
A31 A32 A33 A3
T
Causal
Temporal Attention Block
q3q3q3q
3
k
T
k3
k2
k1
Additive attention from Bahdanau et al., 2014:
/ 99
12
Recurrent Unit 성능 벤치마킹
IV
- Attention block 없이 종류의 State-of-the-art 순환 유닛의 성능을 벤치마킹하였음
Legendre Memory Unit (LMU) in Voelker
et al
., 2019
High-order Polynomial Projection Operators (HiPPO) in Gu
et al
., 2020
Gated Recurrent Unit with Decay (GRU-D) in Che
et al
., 2016
-동일한 Raw 데이터 분할과 훈련가능한 파라미터 (10K)설정하여 성능을 10반복 측정하였음
/ 99
13
평가지표
IV
- Area under the precision-recall curve (AUPRC)
- F1 score
- Matthews correlation coefficient (MCC)
/ 99
14
제안 모델 성능
IV
AUPRC Accuracy F1 score MCC
Random forest 0.969 0.962 0.958 0.923
LSTM 0.966 0.961 0.957 0.921
Attention-based LSTM 0.964 0.959 0.956 0.918
-Attention적용한 LSTM 모델은 기존 LSTM비슷한 성능을 내었음
/ 99
15
4 variables
120 timesteps
Attention 시각화
예시 #1
IV
True
Predicted
/ 99
16
Attention 시각화
예시 #2
IV
4 variables
120 timesteps
True
Predicted
/ 99
17
결론
V
Attention-based LSTM이용하여 불량 검출에서 0.956F1 score보였음
Spatial attention이용하여 시점마다 변수의 중요도를 확인할 있었음
Temporal attention이용하여 미래 시점이 과거 시점에 어떠한 영향을 미치는지 확인할
있었음
/ 99
18
고찰 향후 연구
V
어텐션이 정말 해석 가능한가?
- Attention-based and gradient-based methods demonstrate poor correlation and shuffling the attention weights does not
change the final output (Jain and Wallace, 2019).
아직까지는 Sequence-to-sequence classification을위Local explanation 기법이 만들어지지 않았음
-EEGHuman activity recognition 데이터셋에 Local explanation 기법 대안으로 사용될 있을
Attention추가함으로써 모델 성능을 증가하는지 확인하기 위해선 어려운 데이터셋에 적용해봐야
해석이 용이한 Toy 데이터셋이나 Simulated 데이터셋에 적용하여 Attention 정확한지 확인해야
슬라이딩 윈도우보다 작은 시퀀스도 받을 있도록 Masking 레이어를 추가할
/ 99/ 20
19
Thank You