Miary trafności prognoz – co wybrać?


Celem niniejszego opracowania jest udzielenie wskazówek co do wyboru miary oceny prognoz w zależności od wymagań i oczekiwań odbiorcy prognozy. Istnieje szeroki wachlarz pomiarów błędów modeli predykcyjnych, ale też nie ma konsensusu w praktyce prognozowania biznesowego, ani akademii, co do wyboru jedynej optymalnej miary sukcesu. Wybór kryterium oceny metody prognostycznej ma kluczowe znaczenia dla sposobu kalibracji tej metody, przebiegu selekcji metod, a w rezultacie także rodzaju prognoz tworzonych za pomocą tej metody. Minimalizacja różnego typu błędów skutkuje innymi właściwościami prognoz optymalnych. Warto znać konsekwencje używania najbardziej popularnych miar trafności modeli prognostycznych i upewnić się, czy odpowiadają one wymaganiom odbiorcy naszych prognoz.

Rodzaje błędów

Prognozując zjawiska ekonomiczno-biznesowe takie jak popyt, przychód, czy PBK, będące wynikiem działań człowieka, jesteśmy skazani na błędne prognozy. Dla wielu prognozowanie to niewdzięczna czynność, ponieważ nieodłączną jego cechą jest popełnianie błędu, który ma za zadanie odpowiedzieć na pytanie: „Jak zła jest Twoja prognoza?” (rzadko pytamy się „Jak dobra jest Twoja prognoza?”), co sugeruje kolejne pytanie: „Dlaczego Twoja prognoza nie może być lepsza?”. Oba pytania wymagają zdefiniowania miernika błędu prognoz (rzadko mówimy o „dobroci prognozy” ang. goodness of fit, a szkoda…). Niestety mierników do wyboru jest bardzo wiele. O ile istnieje jedna definicja błędu pojedynczej prognozy, będąca różnicą miedzy realizacją a prognozą, o tyle istnieje wiele miar, które „uśredniają” błędy z wielu prognoz na różne sposoby. Do najpopularniejszych należą:

  • Średni procentowy błąd prognozy, dalej MAPE, ang. Mean Absolute Percentage Error;
  • Średni procentowy błąd predykcyjny prognozy, dalej MAPPE, ang. Mean Absolute Percentage Predictive Error;
  • Średni błąd absolutny, dalej MAE, ang. Mean Absolute Error;
  • Średni absolutny błąd skalowany, dalej MASE, ang. Mean Absolute Scaled Error;
  • (Pierwiastkowy) Błąd średniokwadratowy, dalej (R)MSE, ang. (Root) Mean Square Error;
  • Suma kwadratów reszt, dalej SSE, ang. Sum of Squared Errors;
  • Współczynnik Determinacji R2 (błądzenia losowego), dalej (Random-walk) R2, ang. (Random-Walk) Coefficient of Determination.
  • Pierwiastkowy bład średniokwadratowy skalowany, dalej RMSSE, ang. Root Mean Squared Scaled Error.


Pierwsze cztery są szczególnie popularne w praktyce prognozowania biznesowego. Mają intuicyjną interpretację, a także są względne w przypadku miar MAPE i MAPPE. Cztery ostatnie miary są bardziej typowe dla literatury ekonometrycznej, a w swoich wyliczeniach posługują się kwadratami błędów. Wzory wyliczeń powyższych miar można znaleźć w Internecie i podanej poniżej literaturze, por. Chase (2013), Hyndman & Koeler (2006) .

Podstawowe oczekiwanie względem prognoz hierarchicznych

Jednym z podstawowych wymagań względem prognoz stawianych przez odbiorców prognoz biznesowych jest możliwość ich agregacji i dezagregacji, np. po miesiącach, kanałach dystrybucji, kategoriach produktowych, regionach itp. Oczekuje się przy tym, że dla każdego poziomu agregacji prognozy będą najlepsze z możliwych, tj. będą minimalizowały zadany błąd prognozy. Żeby zrozumieć to wymaganie, załóżmy, że analityk firmy przygotowuje prognozy na najniższym poziomie hierarchii produktów, np. towaro-lokalizacji, optymalizując przy tym uzgodnioną z odbiorcą prognoz, np. jego przełożonym, miarę trafności. Prezes firmy chciałby wykorzystać wygenerowane przez analityka prognozy na poziomie całej firmy – na najwyższym poziomie hierarchii. Prezes zakłada, że będzie mógł zagregować prognozy z niższych poziomów, a zagregowana prognoza będzie możliwie najlepsza, tj. będzie ona minimalizować uzgodniony błąd prognozy. Gdyby tak nie było, analityk musiałby dla każdego poziomu generować oddzielne prognozy, minimalizujące zadany błąd prognozy, a wygenerowane w ten sposób prognozy byłyby niezgodne, np. analityk prognozuje na najniższym poziomie sprzedaż na poziomie 2 sztuki w pierwszym sklepie i 3 sztuki w drugim sklepie, a jako agregat tych dwóch sklepów prognozuje 6 sztuk (≠ 2 + 3). Takie nieuzgodnione prognozy są w większości wypadków niedopuszczalne dla odbiorcy prognoz, a zgodność prognoz jest jednym z podstawowych oczekiwań.

Okazuje się, że tak podstawowa własność, jak zgodność prognoz, tj. możliwość ich agregacji i pewność minimalizacji błędu na każdym poziomie hierarchii jest możliwa tylko w jednym szczególnym przypadku. Własność tę możemy osiągnąć tylko wtedy, gdy za cel modelowania przyjmiemy wyznaczenie warunkowej wartości oczekiwanej, tj. E(Y|X). Cel ten koresponduje bezpośrednio z wyborem miar oceny prognozy, albowiem uzyskanie warunkowej wartości oczekiwanej za wynik prognozowania jest możliwe tylko poprzez minimalizowanie błędów kwadratowych, np. SSE, MSE, RMSE, RMSSE, R2, Random-Walk R2. To mocno zawęża wybór kryterium oceny modeli, jeśli jednym z wymagań jest możliwość agregacji prognoz i pewność, że na każdym poziomie hierarchii uzyskamy najlepsze prognozy, tj. minimalizujące uzgodniony błąd prognozy. Jednocześnie wymóg agregacji prognoz wyklucza pozostałe, często brane pod uwagę miary, np.: MAPE, MAPPE, MAE czy MASE.

Wady popularnych metod oceny prognoz

W związku z powyższym powstaje pytanie: „Co stawia sobie za cel modelarz minimalizujący tak popularne w praktyce prognozowania biznesowego, a także akademii, miary błędów jak: MAPE, MAPPE, MAE czy MASE?”. Na pewno nie jest nim warunkowa wartość oczekiwana E(Y|X), która jako jedyna statystyka tendencji centralnej gwarantuje pożądaną własność (dez)agregacji prognoz. Nie jest łatwym zinterpretowanie tego, co modelują miary MAPE i MAPPE. Wiadomo, że MAPE ma tendencję do zaniżania, a MAPPE do zawyżania swoich prognoz względem warunkowej mediany. Gneiting (2011A) podaje warunki optymalności prognoz dla kryterium: MAPE i MAPPE. W poniższym przykładzie zostanie pokazane, że miary te generują prognozy skrajnie różne, tj. MAPE generuje minimalną, a MAPPE maksymalną wartość spośród zbioru rozpatrywanych prognoz.

Jeśli chodzi o miary błędów absolutnych takich jak: MAE lub MASE, to ich minimalizacja skutkuje prognozami będącymi warunkową medianą, tj. Med(Y|X). O ile dla rozkładów symetrycznych zachodzi równość wartości oczekiwanej i mediany, tj. E(Y|X) = Med(Y|X), o tyle dla rozkładów skośnych ta równość nie zachodzi, a różnice mogą być bardzo istotne. Na przykład, przy modelowaniu popytu na najniższych poziomach hierarchii (dzień, produkt, lokalizacja, kanał dystrybucji) mamy często do czynienia z rozkładami mocno skośnymi i nieciągłymi (ang. Intermittent demand) charakteryzującymi się częstymi zerowymi obserwacjami sprzedaży i małą ilością sprzedaży dodatnich. W przypadku, gdy prawdopodobieństwo zerowej sprzedaży jest większe niż 50%, to optymalnym z punktu widzenia minimalizacji miary MAE lub MASE jest prognozowanie wartości 0, niezależnie od wysokości sprzedaży w pozostałych niezerowych okresach, albowiem 0 jest medianą takiego rozkładu mieszanego. Prognoza ta może być niedopuszczalna, ponieważ agregowanie takich zerowych prognoz będzie także skutkowało zerowymi prognozami (jako suma zer), podczas, gdy na wyższych poziomach agregacji, np. roku, grupy produktowej, całej organizacji, sprzedaż może być nie tylko dodatnia, ale także bardzo wysoka. W takim przypadku model na wyższym poziomie minimalizujący MAE lub MASE nie generowałby już optymalnych prognoz będących zerami, ale prognozy dodatnie. Oznaczałoby to sytuację w której, na najniższych poziomach występowałyby zerowe prognozy, ale ich agregacja nie byłaby już zerową prognozą. Brak takiej spójności nie jest dopuszczalne w większości oczekiwań odbiorców prognoz.

Poniższy przykład prognozowania popytu w branży B2B (ang. Business-to-Business) pokazuje, jak różne prognozy można uzyskać, optymalizując różne miary oceny prognoz.

Przykład prognozowania popytu na rynku B2B

Popyt na dobra firm z branży B2B wykazuje charakter nieciągły, który polega na częstym popycie zerowym przerywanym większymi zamówieniami. Załóżmy, że popyt na dobra firmy z branży B2B wynosi 300 dla jednego losowo wybranego miesiąca kwartału, a dla pozostałych miesięcy z tego kwartału jest zerowy. Oznacza to, że średni popyt w miesiącu to 100 sztuk, a w kwartale jest deterministyczny i wynosi 300. Innymi słowy historyczny ciąg sprzedaży może być jednym z trzech:

  1. 300, 0, 0;
  2. 0, 300, 0;
  3. 0, 0, 300.


Idealne prognozy pozwoliłby na identyfikację miesiąca, w którym występuje pozytywny popyt – niestety nie jest to tutaj możliwe. Przy niemożności odróżnienia miesięcy i identyfikacji miesiąca, w którym sprzeda się 300 sztuk, nasza prognoza na każdy z trzech miesięcy musi być stała. Naturalnym oczekiwaniem jest to, że prognoza ta będzie z przedziału <0, 300>. Intuicyjnie wydaje się, że kandydatem na „dobrą prognozę” jest liczba 100. Gwarantuje ona, że agregat trzech takich prognoz (3 x 100 = 300) będzie idealną prognozą dla kwartału. Nie bez przypadku, 100 jest wartością oczekiwaną dla tego zadania (= 1/3 x 300 + 2/3 x 0), stąd rekomendacja używania miar błędów kwadratowych, np. SSE, MSE, RMSE, R2, które osiągają minimalną wartość właśnie dla liczby 100. Załączony wykres ilustruje, że miara R2 jest maksymalizowana właśnie dla wartości prognozy równej 100.

Dla powyższego przykładu minimalizacja błędów MAE lub MASE skutkuje medianą rozkładu, który w tym przypadku wynosi 0. O ile wartość 0 będzie idealną prognozą w dwóch z trzech miesięcy, o tyle w jednym z trzech popełni największy błąd 300, a ponadto zagregowanie prognoz do kwartału da także zerową prognozę, a jak wiemy sprzedaż w kwartale jest deterministyczna i wynosi 300. Prognozowanie wartości zerowych może dać wrażenie, że sprzedaż produktu jest wymarła, podczas gdy jest to tylko liczba (decyzja) minimalizująca zadaną miarę trafności. Analogicznie minimalizacja popularnej w prognozowaniu biznesowym miary MAPE skutkuje także prognozą równą 0. Miara MAPE podobnie jak miara MAE, mierzy błędy absolutne, stąd podobieństwo prognoz dla tego przykładu. Załączony wykres ilustruje, że miara MAPE jest minimalizowana dla wartości prognozy równej 0.

Inna odmiana miary MAPE, czyli MAPPE - także bardzo popularna w praktyce prognozowania biznesowego - skutkuje w powyższym zadaniu, kompletnie inną prognozą niż prognoza MAPE, MAE, czy błąd kwadratowy. Okazuje się, że optymalną prognozą minimalizującą MAPPE jest 300. Prognoza ta tylko w jednym z trzech miesięcy będzie prawdziwa, zaś w dwóch miesiącach się pomyli aż o 300. Jej optymalność wynika z faktu, że miara MAPPE w mianowniku ma swoją prognozę, dlatego duża wartość (np. 300) w mianowniku ułamka sprzyja jego zmniejszeniu. Załączony wykres ilustruje, że miara MAPPE jest minimalizowana dla wartości prognozy równej 300.

Dowód optymalności prognoz:

  • 0 dla miary MAPE
  • 100 dla miary R2
  • 300 dla miary MAPPE

przedstawia załączony wykres ilustrujący wartość miary w zależności od prognozy.
Widać, że 0 i 300 minimalizują odpowiednio miary MAPE i MAPPE, zaś 100 maksymalizuje miarę R2.

Podsumowanie

Wybór metody oceny prognoz ma kluczowe znaczenie dla rodzaju generowanych prognoz optymalnych i ich własności. Jednym z podstawowych i pożądanych wymagań względem prognoz jest możliwość ich agregowania, dezagregowania oraz spójności prognoz między różnymi poziomami hierarchii. Uzyskanie tej własności jest możliwe tylko przy wykorzystaniu miar błędów kwadratowych, np. SSE, MSE, RMSE, RMSSE lub R2, których optymalizacja skutkuje modelowaniem warunkowej wartości oczekiwanej jako prognozy optymalnej. Pozostałe miary, w tym tak popularne jak MAPE, MAPPE, MASE, a także MAE nie posiadają tej własności. O ile MASE i MAE skutkują modelowaniem warunkowej mediany, o tyle minimalizacja MAPE i MAPPE skutkuje prognozami trudnymi w interpretacji i także nie dającymi możliwości agregacji.

W przypadku potrzeby spełnienia wymogów agregacji, dezagregacji i spójności prognoz (co jest bardzo częstym i elementarnym wymogiem) rekomenduje się używanie miar błędu kwadratowego, np. SSE, MSE, RMSE, RMSSE, R2. Warto jest też uzmysłowić odbiorcy prognoz za pomocą powyższego przykładu popytu z rynku B2B konsekwencje wyboru innych miar, w szczególności tych popularnie stosowanych w praktyce biznesowej jak: MAPE, MAPPE i MASE. Ilustracja ta może zniechęcić do dalszego ich stosowania w organizacji i zachęcić do przejścia na miary błędu kwadratowego.

Polecana literatura:

  1. Amstrong J. S. (2001), Principles of Forecasting: A Handbook of Researchers and Practitioners, Springer.
  2. Chase Ch. W. (2013), Demand-Driven Forecasting: A Structured Approach to Forecasting, Wiley.
  3. Gilliland M. (2010), The Business Forecasting Deal: Exposing Myths, Eliminating Bad Practices, Providing Practical Solutions, Wiley (Blog)
  4. Gneiting T. (2011A), Making and Evaluating Point Forecasts, “Journal of American Statistical Association”.
  5. Gneiting T. (2011B), Quantiles as optimal point forecasts, “International Journal of Forecasting”.
  6. Hyndman, R. J. (2006), Another look at measures of forecast accuracy, “FORESIGHT” (PDF)
  7. Hyndman, R. J. & Athanasopoulos, G. (2013), “Forecasting: principles and practice”, (Strona).
  8. Hyndman, R. J & Koeler A. B. (2006), Another look at measures of forecast accuracy, “International Journal of Forecasting” (PDF)

Podziękowania

Autor chciałby podziękować Krzysztofowi Pytce za ożywioną dyskusję i uwagi do tekstu.