지난 포스팅에서는 회귀와 관련된 metric에 대해 정리했다. 이번에는, 회귀만큼 중요한 분류와 현재 프로젝트에서 활용하는 시계열과 관련된 metric을 알아보자. 먼저, 분류에서 손실 함수와 성능 척도로 함께 사용되는 metric을 정리해보았다.
Classification(분류)
1. Cross-Entropy Loss
Cross-Entropy Loss는 확률 분포 간의 거리를 측정하는 방법이다. 여기서 거리란 두 분포가 얼마나 다른지를 나타내며, 두 분포가 완전히 같다면 그 거리는 0이 되고, 반대의 경우 거리는 무한대가 된다. 분류 문제에서는 개별 데이터 포인트가 특정 클래스에 속할 확률을 모델링한다. 이 때, 개별 데이터 포인트의 실제 확률 분포와 예측한 확률 분포 간의 거리를 측정하는 것이 Cross-Entropy Loss이다. 해당 거리가 작을수록 모델의 예측이 실제 클래스에 가까워지기 때문에, 거리를 최소화하는 모델을 학습하는 것을 목표로 한다.
분류에는 이진 분류와, 클래스가 3개 이상일 때 사용하는 다중 분류가 있다. 이는 Cross-Entropy의 적용 방식에도 영향을 미친다.

이진 분류는 2개의 클래스(예:긍정, 부정) 중 하나를 선택하는 문제를 의미한다. 이런 경우, Cross-Entropy Loss는 실제 레이블과 모델이 예측한 해당 레이블에 속할 확률 사이의 차이를 측정한다. 실제 레이블이 1인 경우, 모델에 해당 클래스에 대해 높은 확률을 예측하면 손실은 낮아진다. 레이블이 0인 경우에도 동일하다. 신경망에서 사용되는 경우, 역전파를 통해 모델은 손실을 최소화하여 실제 레이블에 가까운 확률을 예측하도록 조정된다.

다중 분류는 세 개 이상의 클래스를 분류하는 문제를 의미한다. 이 경우, 모델의 출력은 각 클래스에 대한 확률 분포로 표현되며, Cross-Entropy Loss는 실제 레이블(원-핫 인코딩으로 표현된)과 이 확률 분포 사이의 차이를 측정한다. 각 클래스에 대한 손실을 계산한 다음 이를 평균하여 전체 손실을 구할 수 있다. 이를 통해 모델은 모든 클래스에 대해 정확한 예측을 할 수 있도록 학습되며, 실제 레이블에 가장 가까운 클래스에 높은 확률을 부여하도록 조정된다.
장점 :
- 명확한 패널티 부여 : Cross-Entropy Loss는 모델의 예측 확률이 실제 클래스와 얼마나 일치하는지를 측정한다. 이로 인해, 잘못된 예측에 높은 패널티를 부여하여 모델의 학습 과정을 유리하게 만든다.
- 확률적 차이 측정 : 손실 함수로 사용하면 모델의 확률적 예측값을 직접적으로 다루므로, 실제값과 예측값 사이의 확률적인 차이를 측정하는 데 유용하다.
- 최적화 용이 : Logistic Regression이나 Neural Network에서 사용할 때, 손실 함수의 미분이 비교적 쉽다. 이는 Gradient Descent 등의 최적화 알고리즘을 쉽게 적용하도록 한다.
단점 :
- 무한대 손실 문제 : 로그 함수의 특성 상, 예측 확률이 0에 가까울 경우 손실이 무한대로 증가할 수 있다. 이는 전체 모델 학습에 불안정성을 초래할 수 있다.
- 불균형 데이터셋에 대한 성능 저하 : Cross-Entropy Loss는 불균형한 Dataset에 대해 성능이 떨어질 수 있다. 즉, 각 클래스에 대한 샘플 수가 크게 차이나는 경우 손실 함수가 다수 클래스에 치우치게 되어 소수 클래스에 대한 학습이 제대로 이뤄지지 않을 수 있다.
따라서, 이진 분류와 다중 분류 모두에서 Cross-Entropy Loss는 모델이 실제 레이블에 가까운 확률 분포를 예측하도록 돕는 중요한 도구이다. 다음으로, Loss function으로만 사용되는 지표를 알아보자.
2. Focal Loss

Focal Loss는 기본적으로 Cross-Entropy Loss의 단점을 개선한 지표로, 잘못 분류된 샘플에 더 많은 가중치를 부여하고, 올바르게 분류된 샘플에는 덜 집중하도록 설계되었다. 이러한 방식은 불균형 데이터셋에 대한 성능을 제고한다. 수식에서 Y가 0일 때는 Cross-Entropy Loss와 동일하고, Y가 증가할수록 모델이 잘못 분류한 샘플에 더 많은 가중치를 부여한다.
장점 :
- 어려운 예제에 집중 : 잘못 분류된 샘플에 더 많은 가중치를 부여하여 어려운 예제에 집중한다. 이를 통해 모델의 성능을 제고한다.
- 클래스 불균형 해결 : Focal Loss는 클래스 불균형 문제를 해결하는 데 유용하다. 다수 클래스에 속한 쉬운 예제의 영향을 줄이고, 소수 클래스에 속하는 어려운 예제에 집중함으로써, 불균형 Dataset에서도 잘 작동한다.
단점 :
- 하이퍼파라미터 선택 : Focal Loss는 Y라는 하이퍼파라미터를 선택해야한다. 이 값은 문제에 따라 다르며, 적절한 값을 찾기 위해 여러 번의 시도가 필요하다.
- 계산 복잡도 증가 : Cross-Entropy Loss보다 계산이 복잡하기 때문에 학습 시간이 오래걸릴 수 있다.
다음으로, 분류 문제의 성능 척도로 활용되는 개념들을 정리했다.
3. Accuracy(정확도)

정확도는 분류 문제에서 모델의 성능을 평가하는 직관적인 지표이다. 모든 예측 결과 중에서 정확하게 예측한 비율을 출력한다.
장점 :
- 이해하기 쉽다 : 정확도는 상당히 직관적인 지표로, 모델이 얼마나 많은 샘플을 올바르게 분류했는지 바로 알 수 있다.
- 일반적으로 유용하다 : 클래스의 분포가 균일한 경우, 정확도는 모델의 성능을 효과적으로 나타내는 지표라고 해석된다.
단점 :
- 클래스 불균형 문제에 취약: 한 클래스의 샘플 수가 다른 클래스의 샘플 수보다 훨씬 많은 불균형 데이터셋에서는 정확도가 모델 성능을 제대로 반영하지 못할 수 있다. 예를 들어, 100개의 샘플 중 90개가 'A' 클래스, 10개가 'B' 클래스인 데이터셋에서 모든 샘플을 'A'로 예측하는 모델의 정확도는 90%가 된다. 하지만 이 모델은 'B' 클래스를 전혀 예측하지 못하는 문제가 있다.
- False Positive와 False Negative를 동일하게 처리: 정확도는 False Positive(실제로는 '아니오'인데 '예'라고 잘못 예측)와 False Negative(실제로는 '예'인데 '아니오'라고 잘못 예측)를 동일하게 취급한다. 하지만, 실제 문제 상황에서는 두 오류가 가지는 중요도나 비용이 다를 수 있다.
4. Recall(재현율)

재현율(Recall) 또는 민감도(Sensitivity)는 동일한 표현으로, 모델이 양성 클래스 중에서 실제로 양성 클래스라고 예측한 비율을 나타낸다. 즉, 실제 양성 샘플 중에서 얼마나 많은 샘플을 양성이라고 정확하게 예측했는지를 나타내는 지표이다.
장점:
- False Negative를 강조: 재현율은 False Negative(실제로는 양성인데, 모델이 음성으로 예측한 경우)에 대해 더 높은 가중치를 부여한다. 이는 실제 양성 케이스를 놓치는 것이 큰 문제가 되는 상황(예: 암 진단)에서 중요하다.
- 불균형한 데이터에 유용: 데이터셋이 불균형할 때, 즉 한 클래스의 샘플 수가 다른 클래스보다 훨씬 많은 경우에 유용하다. 이런 경우, 소수 클래스에 대한 모델의 성능을 측정하는 데 재현율이 효과적이다.
단점:
- False Positive(FP)를 간과: 재현율은 False Positive(실제로는 음성인데, 모델이 양성으로 예측한 경우)를 간과할 수 있습니다. 즉, 모델이 너무 많은 양성 샘플을 예측하여 실제로는 음성인 샘플까지 양성으로 예측하는 경우, 재현율은 이를 반영하지 못하고 높게 나타날 수 있다.
- 정밀도와의 트레이드오프: 재현율을 높이려면, 샘플을 양성으로 예측해야 하므로 False Positive가 증가하게 된다. 이로 인해 정밀도(Precision)가 낮아지는 트레이드오프 상황이 발생한다. 이를 해결하기 위해 F1 점수와 같은 지표를 사용하여 재현율과 정밀도의 균형을 측정하기도 한다.
5. Precision(정밀도)

정밀도(Precision)는 모델이 양성이라고 예측한 샘플 중에서 실제로 양성인 샘플의 비율을 나타낸다. 즉, 모델의 예측이 얼마나 확실한지를 나타내는 지표이다.
장점:
- False Positive(FP)를 강조: 정밀도는 False Positive(실제로는 음성인데, 모델이 양성으로 예측한 경우)에 대해 더 높은 가중치를 부여한다. 이는 실제 음성 케이스를 양성으로 잘못 예측하는 것이 큰 문제가 되는 상황(예: 스팸 메일 필터)에서 중요하다.
- 예측 결과의 신뢰도 평가: 정밀도는 모델이 양성이라고 예측한 결과 중 실제로 양성인 케이스의 비율을 나타내므로, 모델의 예측 결과에 대한 신뢰도를 나타내는 데 유용하다.
단점:
- False Negative를 간과: 정밀도는 False Negative(실제로는 양성인데, 모델이 음성으로 예측한 경우)를 간과할 수 있다. 즉, 모델이 실제 양성 케이스를 놓친 경우, 이를 반영하지 않고 정밀도는 여전히 높게 나타날 수 있다.
- 재현율과의 트레이드오프: 정밀도를 높이려면, 모델이 확신이 있을 때만 양성을 예측해야 하므로 False Negative가 증가하게 된다. 이로 인해 재현율(Recall)이 낮아지는 트레이드오프 상황이 발생한다. 이를 해결하기 위해 F1 score와 같은 지표를 사용하여 정밀도와 재현율의 균형을 측정한다.
6. Specificity(특이도)

특이도(Specificity)는 음성 클래스를 얼마나 잘 예측하는지를 측정하는 분류 모델의 성능 지표이다. 즉, 실제 음성 샘플들 중에서 얼마나 많은 샘플을 음성이라고 정확하게 예측했는지를 나타내는 지표이다.
장점:
- False Positive(FP)를 강조: 특이도는 False Positive(실제로는 음성인데, 모델이 양성으로 예측한 경우)에 대해 더 높은 가중치를 부여한다. 이는 실제 음성 케이스를 양성으로 잘못 예측하는 것이 큰 문제가 되는 상황에서 중요하다.
- 음성 클래스의 예측 성능 평가: 특이도는 모델이 음성 클래스를 얼마나 잘 예측하는지를 나타내므로, 음성 클래스에 대한 예측 성능을 평가하는 데 유용하다.
단점:
- False Negative를 간과: 특이도는 False Negative(실제로는 양성인데, 모델이 음성으로 예측한 경우)를 간과할 수 있다. 즉, 모델이 실제 양성 케이스를 놓친 경우, 이를 반영하지 않고 특이도는 여전히 높게 나타날 수 있다.
- 양성 클래스의 예측 성능 무시: 특이도는 음성 클래스에 대한 예측 성능만을 고려하므로, 양성 클래스에 대한 예측 성능은 고려하지 않는다. 따라서, 양성 클래스에 대한 예측 성능도 중요한 경우에는 특이도만으로는 모델의 성능을 충분히 평가하기 어렵다.
7. F1 Score

F1 Score는 정밀도와 재현율의 조화 평균으로 계산된다. 두 지표의 균형을 나타내서, 모두를 고려하기 때문에 클래스 불균형 문제에 더 정확한 결과를 도출한다. 클래스의 개수에 따라 계산하는 방법이 다르기 때문에, 각각 따로 정리해보았다.
이진 분류에서는 모델이 양성 클래스에 대해 얼마나 잘 예측하는지를 평가하는 데 F1 Score를 활용한다. 정밀도는 모델이 양성이라고 예측한 샘플 중 실제로 양성인 샘플의 비율을 나타내고, 재현율은 실제 양성 샘플 중 모델이 양성이라고 예측한 샘플의 비율을 나타냅니다. F1 점수는 이 두 지표의 균형을 나타내는 값으로, 두 지표 모두를 고려하므로 클래스 불균형 문제에 유리하다.
다중 분류에서는 각 클래스에 대한 F1 Score를 계산하고, 이를 평균내어 전체 모델의 성능을 평가한다. 이 때, 개별 클래스에 대한 F1 Score는 해당 클래스를 양성 클래스로, 나머지 클래스를 음성 클래스로 간주한다. 계산 방법으로는 2가지가 있다.
- Macro-average : 개별 클래스에 대한 F1 Score를 동일하게 취급하여 평균을 계산한다. 모든 클래스를 동등하게 취급하므로, 소수 클래스의 성능도 중요하게 보는 경우 적합하다.
- Micro-average : 모든 클래스의 TP, FP, FN을 합산하여 F1 Score를 계산한다. 개별 샘플을 동등하게 취급하므로, 다수 클래스의 성능에 더 높은 가중치를 둔다.
- Weighted-average : 개별 클래스에 대한 F1 Score를 계산할 때 해당 클래스의 샘플 수에 따라 가중치를 부여하여 평균을 계산한다. 클래스 불균형을 어느정도 고려하기 때문에, 샘플 수가 많은 클래스의 성능이 전체 성능에 더 큰 영향을 미치게 된다. 반면, 샘플 수가 적은 클래스의 성능은 전체 성능에 덜 반영된다. 즉, 개별 클래스의 중요도가 샘플 수에 비례한다고 가정하는 경우 적합하다.
장점 :
- 정밀도(Precision)와 재현율(Recall) 모두를 고려: F1 점수는 정밀도와 재현율, 두 가지 중요한 지표를 모두 고려한다. 이 두 지표 중 한쪽만 높고 다른 한쪽이 낮은 경우, F1 점수는 낮게 나타나므로 모델의 성능이 지표에 잘 반영된다.
- 클래스 불균형 문제: 클래스 불균형이 있는 경우, 모델의 성능을 제대로 파악하기 어렵습니다. F1 점수는 양성 클래스에 대한 모델의 성능을 정확하게 측정하므로 클래스 불균형 문제에 다른 지표보다 유리하다.
- 다중 클래스 분류 확장 : Macro-average, Micro-average, Weighted-average 등 다양한 방법으로 F1 점수를 확장하여 다중 클래스 분류 문제에도 적용할 수 있다.
단점:
- 임계값에 민감: F1 점수는 모델의 결정 임계값에 민감합니다. 임계값을 변경하면 모델의 정밀도와 재현율이 변하므로, F1 점수도 변한다. 여기서 임계값이란, 분류 모델의 예측 결과를 클래스로 변환하는 기준점을 의미한다. 보통 0.5를 기준으로 임계값을 설정한다.
- 진짜 음성(True Negative)을 고려하지 않음: F1 점수는 양성 클래스에 대한 성능만을 고려하므로, 음성 클래스에 대한 모델의 성능은 반영하지 않는다. 따라서, 음성 클래스의 예측 성능이 중요한 문제에서는 F1 점수만으로는 충분하지 않을 수 있다.
8. F-Beta Score

F1 Score의 일반화된 형태를 F-Beta Score라고 한다. F1 Score와 동일하게 정밀도와 재현율의 조화평균을 계산하지만, 베타 값에 따라 가중치를 부여할 수 있다. 베타가 1보다 크면 베타의 제곱이 1보다 커지게 되고, 분모에 있는 베타 제곱 * 정밀도가 커져서 전체 합에서 재현율이 차지하는 비중이 커진다. 반대로, 베타가 1보다 작으면 베타의 제곱도 1보다 작아지므로 분모의 베타 제곱 * 정밀도가 작아지게 된다. 따라서, 재현율보다 정밀도에 더 큰 가중치가 부여된다. 대표적으로 F2, F0.5 Score가 있으며, 재현율과 정밀도를 더 중요하게 여기는 상황에 따라 선택적으로 사용된다.
9. Confusion Matrix(혼동 행렬)

혼동 행렬(Confusion Matrix)은 분류 모델의 성능을 평가하는 데 사용되는 표이다. 모델의 예측 결과와 실제 결과를 비교하여,True Positive(TP), False Positive(FP), True Negative(TN), False Negative(FN)의 4가지 경우를 보여준다. 위에서 설명한 다수의 지표를 표 하나로 전부 설명할 수 있다.
- True Positive(TP): 모델이 양성 클래스를 양성으로 올바르게 예측한 경우
- False Positive(FP): 모델이 음성 클래스를 양성으로 잘못 예측한 경우
- True Negative(TN): 모델이 음성 클래스를 음성으로 올바르게 예측한 경우
- False Negative(FN): 모델이 양성 클래스를 음성으로 잘못 예측한 경우
제 1종 오류와 제 2종 오류 통계적 가설 검정에서 사용되는 용어로, 혼동 행렬에서 아래와 같이 해석된다.
- 제 1종 오류 : 실제로는 거짓인데 참으로 잘못 판단하는 경우로, False Positive에 해당한다. 실제로는 음성인데 모델이 양성으로 잘못 판단하는 경우를 의미한다.
- 제 2종 오류 : 실제로는 참인데 거짓으로 잘못 판단하는 경우로, False Negative에 해당한다. 실제로는 양성인데 모델이 음성으로 잘못 판단하는 경우를 의미한다.
10. AUC-ROC

AUC는 Area Under the Curve(곡선 아래 면적)의 약자를, ROC는 Receiver Operating Characteristic(수신자 조작 특성)을 의미한다. ROC 곡선은 False Positive Rate(FPR, 1-특이도)을 X축으로, True Positive Rate(TPR, 민감도)을 Y축으로 하는 그래프이다. 이 때, AUC는 ROC 곡선 아래의 면적을 나타내며, 값이 1에 가까울수록 좋은 모델을 의미한다.
장점
- AUC-ROC는 불균형한 데이터셋에서도 잘 작동한다. 즉, 양성과 음성 클래스의 비율이 크게 다른 경우에도 성능을 잘 평가할 수 있다.
- 모델의 성능을 하나의 숫자로 요약해서, 모델 간의 비교가 용이하다는 장점이 있다.
단점 :
- 모든 임계값에서 모델 성능을 평균내기 때문에, 특정 임계값에서의 성능은 파악하기 어렵다.
- 민감도와 특이도가 동등하게 중요한 지표로 간주된다. 따라서, 하나의 지표가 더 중요한 상황에서는 AUC-ROC만으로는 충분한 정보를 얻기 어렵다.
11. AUC-PR

AUC-PR은 Area Under the Precision-Recall Curve(정밀도-재현율 곡선 아래의 면적)을 의미한다. 재현율(민감도)를 X축으로, 정밀도를 Y축으로 사용하며, 해당 곡선 아래의 면적을 AUC-PR이라고 한다. AUC-ROC 와 동일하게 값이 1에 가까울수록 좋은 모델임을 의미한다.
장점 :
- AUC-ROC와 동일하게 불균형한 데이터셋에서 성능을 잘 반영한다.
- 정밀도와 재현율이라는 두 가지 지표를 모두 고려해서, 모델의 성능을 전반적으로 평가할 수 있다.
단점 :
- AUC-ROC와 동일하게 모든 임계값에서 모델 성능을 평균내기 때문에, 특정 임계값에서의 성능은 파악하기 어렵다.
- AUC-ROC보다 해석하기가 어렵다. 예를 들어, AUC-PR이 0.5인 경우에도 랜덤한 분류기보다 더 낮은 성능을 가질 수 있다.
Time-Series(시계열)
시계열 분석에서는 회귀에서 사용하는 손실 함수와 성능 척도를 활용할 수 있다. 이전 포스팅에 기재한 내용을 제외하고, 시계열 분석에서 주로 사용되는 방법에 대해 알아보자.
1. MASE(Mean Absolute Scaled Error)

MASE는 평균 절대 스케일 오차라는 뜻으로, 시계열 분석에서 널리 사용되는 Loss Function이다. 간단한 비교 모델(예 : 이전 관측치를 다음 관측치의 예측치로 사용하는 Naive model)에 대한 오차를 기준으로 실제 모델의 예측 오차를 Scaling 한다. 즉, 예측 모델의 MAE를 비교 모델의 MAE로 나눈 값이 MASE이다. 이렇게 계산하면, 예측 모델의 성능을 Scale에 의존하지 않고 비교할 수 있게 된다.
- Naive Model(나이브 모델) : 복잡한 통계적 기법이나 머신러닝 알고리즘을 사용하지 않고, 간단한 규칙에 따라 예측을 수행하는 모델을 의미한다. 예를 들어, 시계열 예측에서 가장 단순한 나이브 모델은 "이전 시간 단계의 값이 다음 시간 단계의 값이 될 것이다" 라는 규칙을 따르는 모델을 의미한다. 이러한 모델은 복잡한 패턴을 포착할 수 없지만, 때로는 아주 정확할 때도 있다.
- Scale : 데이터의 범위나 단위를 의미한다. 예를 들어, 가격에서의 단위 혹은 환율 등이 있다.
장점 :
- 스케일에 불변 : MASE는 예측 오차를 비교 모델의 예측 오차로 Scaling 하므로, 다양한 스케일의 시계열 데이터에 대해 일관된 성능 측정이 가능하다.
- 직관적 해석 : MASE 값이 1보다 작으면 예측 모델이 비교 모델보다 성능이 좋다는 것을, 1보다 크면 성능이 나쁘다는 것을 의미한다.
- 시계열 데이터 예측 : MASE는는 나이브 예측 모델로 단순 이동 평균을 사용하는데, 이는 시계열 데이터가 주기성이나 계절성을 가질 때 특히 유용하다. 계절성이 있는 데이터에서는 특정 기간마다 패턴이 반복되므로, 이전 시즌의 데이터는 다음 시즌의 데이터를 예측하는 데 도움이 된다. 따라서 MASE는 계절성을 가진 시계열 데이터의 예측 성능을 평가하는 데 적합한 지표이다.
단점 :
- 비교 모델 선택 : MASE는 비교 모델의 성능에 따라 값이 달라질 수 있다. 적절한 비교 모델을 선택하는 것이 중요하다.
- 절대적 성능 파악 어려움 : MASE는 상대적인 성능을 측정하기 때문에, 예측 모델의 절대적인 성능을 파악하기 어렵다. 예를 들어, MASE 값이 0.8이면 예측 모델이 비교 모델보다 20% 더 나은 성능을 보인다고 해석되지만, 이것이 얼마나 좋은 성능인지는 알 수 없다.
2. WQL(Weighted Quantile Loss)

가중 분위수 손실(WQL)은 분위수 예측에서의 모델 정확도를 측정하는 metric으로, 과소 예측과 과대 예측에 대해 서로 다른 패널티를 부여한다. 예를 들어, 재고 부족 비용이 과잉 재고 비용보다 높은 경우 등 비대칭적인 경우를 예측할 때 유용하다. 수식에서의 역할은 다음과 같다.
- i는 관측치의 인덱스, t는 시간 인덱스
- yi,t는 실제 관측치
- qi,t(τ)는 τ 분위수에서의 예측치
- τ는 분위수 (0.01 ~ 0.99)
분위수 예측이란, 특정 확률에서 예상되는 값은 얼마인지를 예측하는 것이다. 예를 들어, '상위 10%(0.9 분위수)의 수익률은 얼마일까?'라는 질문에서는, 모든 가능한 수익률 중에서 상위 10%에 해당하는 수익률을 찾는 것이다. 즉, 상위 10%의 수익률이란, 모든 수익률을 크기 순서대로 나열했을 때, 가장 큰 10%의 수익률 중에서 가장 낮은 수익률을 의미한다. 이 값은 0.9 분위수에 해당하는 값이다.
WQL은 분위수 τ에서의 예측 오차에 가중치를 부여하여 평균을 산출한다. 이 가중치는 과소 예측과 과대 예측에 대한 패널티를 다르게 부여하는 역할을 한다. τ가 0.5보다 크면, 즉 상위 부분의 예측을 보고 있을 때, 과소 예측에 더 큰 패널티를 부여한다. 실제 값이 예측값보다 크게 나온다면 그것은 특히 큰 문제가 될 수 있기 때문이다. 만약 τ가 0.9인 경우, 즉 상위 10%의 예측을 보고 있을 때, 실제 값이 예측 값보다 높게 나올 경우(과소 예측의 경우)에 더 큰 패널티를 부여한다. 이는 과소 예측의 비용이 과대 예측의 비용보다 더 높을 때 유용하게 사용된다.
반대로 τ가 0.5보다 작으면, 즉 하위 부분의 예측을 보고 있을 때, 과대 예측에 더 큰 패널티를 부여한다. 왜냐하면 이 경우, 실제 값이 예측값보다 작게 나온다면 그것은 특히 큰 문제가 될 수 있기 때문이다. 즉, τ가 0.5보다 크면 과소 예측에 더 큰 패널티를, 0.5보다 작으면 과대 예측에 더 큰 패널티를 부여한다. WQL은 이러한 특성 때문에, 비대칭적인 비용을 가지는 문제나 분포의 전체적인 형태를 고려해야 하는 문제에 유용하게 사용될 수 있다.
출처
Focal Loss : https://techblog-history-younghunjo1.tistory.com/191
Confusion Matrix : https://medium.com/swlh/how-to-remember-all-these-classification-concepts-forever-761c065be33
AUC-ROC, AUC-PR : SOFAER, Helen R.; HOETING, Jennifer A.; JARNEVICH, Catherine S. The area under the precision‐recall curve as a performance metric for rare binary events. Methods in Ecology and Evolution, 2019, 10.4: 565-577.
MASE, WQL : https://docs.aws.amazon.com/ko_kr/forecast/latest/dg/metrics.html#metrics-mase,
SHCHUR, Oleksandr, et al. AutoGluon-TimeSeries: AutoML for Probabilistic Time Series Forecasting. arXiv preprint arXiv:2308.05566, 2023.
'Data Science' 카테고리의 다른 글
| [Linux] 명령어 정리 (0) | 2023.10.22 |
|---|---|
| [정규화] 정규화의 역할 및 종류 (0) | 2023.10.13 |
| [Metric] 회귀 (0) | 2023.10.09 |
| [NLP] LLM Benchmark (0) | 2023.10.03 |
| [Pytorch] CUDA 설치 (0) | 2023.09.22 |