Chciałem być dla Legii gościem z Moneyball
Weszło

Chciałem być dla Legii gościem z Moneyball

Wykorzystanie sztucznej inteligencji w analityce piłkarskiej. Page Rank Facebooka użyty do stworzenia mapy podań. ExpectedGoals a ExpectedThreat, przestrzenie Voronoia, ghosting, analiza danych pozycyjnych jako tajna broń gigantów futbolu, ze szczególnym uwzględnieniem Liverpoolu i Barcelony.

Science-fiction w piłce nożnej zaczyna się dzisiaj (a w zasadzie zaczęło się jakiś czas temu, teraz się rozpędza). Waszym przewodnikiem w fascynującym świecie przyszłości futbolu będzie Michał Jaroń, były analityk big data Legii, którego pomysły zdobyły uznanie na międzynarodowym Opta PRO Forum.

***

Skąd wzięło się u ciebie zainteresowanie akurat tą stroną futbolu?

Moją największą pasją jest programowanie, na drugim miejscu futbol. Chciałem połączyć jedno z drugim i tak zrodziło się zainteresowanie analityką. Czytałem różne prace naukowe w tym temacie, potem odkryłem konferencję MIT Sloan Sports Analytics Conference – to organizowana na jednej z najbardziej prestiżowych politechnik na świecie konferencja analityków różnych sportów. Zaczęło się od NBA, NFL, baseballu, ale teraz pojawia się coraz więcej osób z piłki nożnej. To rozbudziło moją wyobraźnię.

Aktualnie skończyłem z wyróżnieniem studia informatyczne na Uniwersytecie Warszawskim. Magisterkę pisałem z wykorzystania metodami sztucznej inteligencji w analizie danych piłkarskich. Wykorzystane w pracy dane są dosyć unikalne. Uzyskałem do nich dostęp za sprawą uprzejmości Legii Warszawa, której dziękuję za tę możliwość i za odważne stawianie na analitykę futbolową.

Co jest dzisiaj największą nowinką analityki piłkarskiej?

Dzisiaj bardzo inwestuje się w wykorzystanie danych pozycyjnych. Tłumacząc obrazowo to widok meczowy przekształcony do formy znanej z silnika meczowego Football Managera. To pomaga oszacować między innymi jak zawodnik kreuje pole. Możemy na przykład powiedzieć, że Messi stojąc stwarza więcej przestrzeni niż inni biegając. Dane potwierdzają maksymę „lepiej mądrze stać niż głupio biegać”.

 Screen Shot 08-19-19 at 01.57 PM

Jak to obliczono?

Za ten model odpowiadają ludzie z m.in. Science Hub Barcelony, inkubatora startupów piłkarskich przy Barcelonie. W tym przypadku stworzyli model przestrzenny, który analizował prawdopodobieństwo “posiadania” przestrzeni boiskowej przez danego zawodnika. To wszystko na podstawie rozstawienia zawodników, tego jak blisko są koledzy, a także rywale przy graczu. Na tej podstawie pokazano, że Messi bez piłki kreują przestrzeń w szczególny sposób, bo stojąc. Oczywiście nie dosłownie, ale w tym sensie, że wystarczy mu jeden czy dwa dobrze obliczone kroki, a zawsze jest w przestrzeni obiecującej.

Messi nieustannie się rozgląda, skanuje boisko, w idealnym momencie wykonuje ruch i stwarza przestrzeń sobie i swojej drużynie, co udowadnia algorytm. Bardzo efektownie to wyglądało na rzucie z góry, właśnie kamerze jak z Football Managera, z naniesioną na „heatmapą”, która dokładnie pokazuje gdzie Messi tworzy przestrzeń. Zarówno dla siebie jak i dla kolegów z drużyny. Był również o tym artykuł w Financial Times, w którym zamieszczono wykres pokazujący podsumowanie zyskanej przestrzeni z meczu Barcelona vs. Villarreal. Wynika z tego, że Messi jest ewenementem. To było dość mocno dyskutowane na zachodnim Twitterze analitycznym. Messi stworzył więcej stojąc albo truchtając niż jego koledzy wykonując sprinty.

Czy można z tego pośrednio wysnuć wniosek, że wyliczenia przebiegniętych kilometrów nie mają tak wielkiej wagi, jak im się przypisuje?

W Ekstraklasie funkcjonuje system TRACAB, niestety w dość okrojonej wersji. Na Zachodzie, na przykład w Premier League, dostępność danych opisujących ruch każdego zawodnika jest większa, również dzięki innym rozwiązaniom. Dane zawierają koordynaty boiskowe każdego zawodnika, piłki, a nawet sędziów, próbkowane z częstotliwością ok. 20 razy na sekundę. Można sobie z duża dokładnością wyrysować lokalizację zawodników, odtworzyć mecz z góry jak w FM-ie. W Polsce, system TRACAB dostarcza tylko statystyki takie jak prędkości i zliczone kilometry. Trochę ciekawszą funkcjonalnością są dane na temat podań, jednak system opisuję tylko podanie udane, co znacznie zmniejsza jego przydatność.

Dane zawieszone w próżni.

Tak, to jest pozbawione kontekstu. To raczej w kategoriach ciekawostki, że ktoś przebiegł dwanaście kilometrów, ale nie ma z tego żadnego realnego pożytku dla trenerów, klubów. Nic to nie mówi o organizacji gry. Są prace, na przykład, „Influence of certain tactical attacking patterns on the result achieved by the teams participants of the 2010 FIFA World Cup in South Africa”, która pokazuje, że nie ma korelacji między liczbą przebiegniętych kilometrów, a wynikami. Wszystko zależy od tego jak układa się mecz, jaki jest styl drużyny. Już lepszym wyznacznikiem jest ilość kilometrów przebiegniętych na wysokiej intensywności.

Zawodnicy i tak grają w tzw. pajączkach które zbierają ich tętno, pozycję boiskową. Co prawda, różnie bywa z dokładnością systemów GPS na zamkniętych stadionach, jednak nie zmienia to faktu, że dane jakie dostarcza TRACAB nie pozwalają na zaawansowaną analizę kondycji piłkarza.

Expected goals – wykładnik jakości szans stworzonych przez zespół – na ile to twoim zdaniem przydatne?

Piłka nożna to sport specyficzny, zdecydowanie trudniejszy w systematycznej analizie, w porównaniu do gier zespołowych o podobnej charakterystyce. Ta trudność wynika z tego, że sól futbolu czyli gole zasługują na miano rzadkich wydarzeń. Średnia liczba goli w jednym meczu to tylko 2.6, co jest wartością ponad dwukrotnie mniejszą niż chociażby w hokeju. W analityce często używa się określenia – “low scoring game”. Końcowy wynik często bywa mylący i nie wskazuje drużyny faktycznie lepszej. Z tego powodu analityka sportowa poszukiwała lepszych metod na determinację wyników meczów niż sposób oparty na faktycznej liczbie goli, tak też powstała idea expectedGoals.

Odpowiadając na twoje pytanie – expectedGoals, może być bardzo przydatna, pod warunkiem, że jest dobrze interpretowana i używana we właściwy sposób. Na xG czasem spada krytyka, która wynika właśnie ze złej interpretacji i traktowania tej metryki jako “Świetęgo Graala” analityki, a tym xG na pewno nie jest.

Podam ci ciekawy przykład:

Mój model expectedGoals pokazał, że Novikovas w Jagiellonii strzelał często z absurdalnych pozycji. Takich, w których miał znikome procenty szansy na gola, podczas gdy mógłby efektywnie rozegrać piłkę. W praktyce Novikovas oddaje wiele bezsensownych strzałów, które marnują wysiłek drużyny lub nawet uruchamiają kontrę. W tym sezonie widzieliśmy jeszcze za mało występów, żeby powiedzieć to na pewno, jednak obserwując grę Litwina w Legii, myślę, że ciągle widać, że nie pozbył się tej “wady”.

Screen Shot 08-19-19 at 01.56 PM 001

To czym jest właściwie expectedGoals?

Lubię tłumaczyć sens xG na przykładzie naszego odbioru meczu. Oglądając mecz nieraz myślimy – “jak mógł nie wykorzystać tej sytuacji”. Intuicyjnym sensem xG jest właśnie zmierzenie/nadanie wartości liczbowej takim komentarzom. –  xG starają się zmierzyć liczbowo “groźność” sytuacji, które niejednokrotnie wzbudzają okrzyk kibica.

Albo „okazja!” Dariusza Szpakowskiego.

Łapiemy się za głowę: musi to strzelić! ExpectedGoals jest ciekawym narzędziem o tyle, że wnosi dodatkowy kontekst do klasycznie spotykanych statystyk, a jednocześnie wydaje mi się, że jest prosta w odbiorze, nawet dla “niedzielnego” kibica. Robiłem taki eksperyment w oparciu o mecz PSG – Manchester United z ostatniej edycji Ligi Mistrzów. Pokazałem kilku osobom interesującym się piłką nożna statystyki z tego meczu, jednak nie powiedziałem co to za mecz, nie podpisałem drużyn. Pytałem jakim wynikiem zakończył się ten mecz. Większość wskazywała na zdecydowane zwycięstwo drużyny z “lepszymi” statystykami.

111

Źródło Instat

PSG miało 66% posiadania piłki i dużo więcej strzałów, ale skończyło się na 1:3 dla Czerwonych Diabłów. Niemniej jeśli dołożysz do tych suchych, najbardziej podstawowych statystyk expectedGoals, ta niespodzianka się jakby zmniejsza, a mecz wyrównuje, bo Man Utd nie było w tym elemencie gorsze.

O jakich jeszcze zastosowaniach expectedGoals możesz powiedzieć?

Nie ma zgody w analityce w jaki sposób wyceniać umiejętności napastników, choć zdawałoby się, że tutaj poszło to jak do tej pory najdalej, choćby przez wspomniane xG. Przez długi czas mówiono, że trzeba szukać zawodników, którzy “przewyższają” xG, czyli:

–  jeśli xG wróży dziesięć bramek, a zawodnik strzelił dwadzieścia, to znaczy, że wykorzystuje nawet mierne sytuacje;

– jeśli xG wróży dwadzieścia bramek, a strzelił dziesięć, to można to interpretować, że mimo pokaźnej liczby bramek, zawodnik jest nieskuteczny.

To była przez kilka lat dość powszechnie używana miara jakości napastników. Moim zdaniem jednak jej przydatność nie jest aż tak duża, szczególnie w skautingu. Porównałem wartości nadwyżki goli nad xG – sezon do sezonu. Nadwyżka xG w jednym sezonie, w małym stopniu koreluje z następnym sezonem. Ta metryka charakteryzuje się duża niestabilnością. To, że ktoś miał nawet znaczną nadwyżkę xG, nie koreluje w znacznym stopniu z kolejnymi latami.

Screen Shot 08-19-19 at 01.52 PM

Screen Shot 08-19-19 at 01.52 PM 001

Niejako w odpowiedzi na tę bolączkę, zaproponowałem swój model, który odznacza się trzy razy lepszą korelacją z sezonu na sezon. Nazwałem ją „shotQuality”. Najpierw napisałem robota (“crawler”), który chodził po stronach WyScout i InStat i robił ekstrakcję danych. W ten sposób zbudowałem pokaźną bazę zawierającą informację o tym skąd strzał został oddany i gdzie został posłany. W swojej pracy udowodniłem, że moje podejście lepiej ocenia jakość wykończenia akcji, niż podejście oparte na xG.

Jako ciekawostkę powiem, że Piątek w sezonie, po którym poszedł do Włoch, w shotQuality był siedemnasty w Europie. Z kolei w rankingu “gole – xG” 14 miejsce w Europie zajął Carlitos. Mówię tutaj o sezonie poprzedzającym jego przejście do Legii.

Screen Shot 08-19-19 at 02.02 PM

Screen Shot 08-19-19 at 02.03 PM

Problem w tym, że twój model nie bierze pod uwagę jakości bramkarza, porównuje jednocześnie na jednym poziomie asów z Premier League i naszych ekstraklasowiczów.

Tak samo robi expectedGoals, natomiast bezsprzecznie – jest to wada. Dopiero pracuje się nad modelami, które będą np. uwzględniać pozycję bramkarzy w momencie. Nie mówię tutaj tylko o tym, że bramkarz stoi na linii strzały, a bardziej zaawansowane wykorzystanie informacji o jego pozie. To kolejny etap, właśnie wdrażany, nie mam wątpliwości, że niebawem uda się go wprowadzić na merytoryczny poziom. Na ostatniej konferencji MIT zaprezentowano pracę analizującą rzuty karne z ostatniego mundialu. Pojawiło się tzw. “pose estimation” – estymacja postawy. Z obrazu TV, głębokie sieci neuronowe tworzą niejako siatkę 3D zawodnika, czy też lepiej powiedzieć jego szkielet – gdzie ma rękę, gdzie ma nogę. Opracowany model na podstawie siatki, jeszcze przed uderzeniem z dużym prawdopodobieństwem przewidywał w które miejsce zawodnik pośle strzał. To jest prawdziwe wow. Pokazali też ewaluację bramkarzy w oparciu o ustawienie i postawę golkipera. Ale do tego potrzeba banku danych.

Screen Shot 08-19-19 at 02.03 PM 001Screen Shot 08-19-19 at 02.04 PM

Screen Shot 08-19-19 at 02.05 PM

Twój pomysł został wyróżniony na prestiżowym OptaPro Analytics Forum. Co to za impreza?

OptaPRO Forum to doroczna konferencja organizowana przez firmę Opta, która zajmuje się zbieraniem typowo piłkarskich danych analitycznych. Mój pomysł został wyróżniony, za co dostałem dostęp do tego, o czym marzyłem od lat; danych pozycyjnych.

Jakie dane dostałeś?

Czterdzieści meczów z Segunda B. Dane systemu TRACAB, tj. koordynaty piłkarzy, piłki, sędziów. Full wypas. Marzę, by coś takiego pojawiło się w Polsce. Miałem też wygłosić przemówienie w Londynie, ale niestety nie wygłosiłem. Z przyczyn niezależnych ode mnie, nie mogłem polecieć do Londynu.

Na czym polega twój wyróżniony pomysł?

Badacze Disney Research zbudowali na bazie danych pozycyjnych z Premier League, tzw. „ghosting”. W dużym uproszczeniu: zabierali jednego zawodnika, a na jego miejsce dawali takiego “duszka” – ten duszek był sterowany sztuczną inteligencją, ta uczyła się jak poruszać się tym duszkiem, tak żeby w jak najlepszym stopniu imitować faktyczne ruchy piłkarzy. Sieć została nauczona ruchów na na podstawie wielu danych meczowych, dostała dane wejściowe: pozycje piłki, kolegów z drużyny, przeciwników. To jak sztuczna inteligencja z FIFA czy FM-a, tylko w oparciu o drobiazgowe naśladowanie prawdziwych zawodników. Jest taki ciekawy filmik, który ładnie to pokazuje: zbadano akcję z meczu Fulham – Swansea. Porównano postawę defensywy Swansea z liniami obrony stworzonymi z “duchów” imitujących odpowiednio: średnią ze wszystkich drużyn oraz defensywę Manchester City. Zachowanie The Citizens pozwoliło zmniejszyć xG akcji o ponad 0.3. Możemy zatem testować hipotetyczne scenariusze, np. jak zawodnik sprawdziłby się w żywej drużynie.

Screen Shot 08-19-19 at 01.59 PM

Wracając do mojego wyróżnionego pomysłu – zaproponowałem aplikację na kanwie ghostingu i tego jak w koszykówce czy NFL trenerzy rozrysowują zagrania podczas przerw. Chodziło o to, by na tablecie trener mógł narysować rzut rożny czy rozegranie piłki, potem puścić play i w oparciu o ghosting sprawdzić jakie jest expected goals takiego rozwiązania.

Co jeszcze z najnowszych trendów analitycznych warto wspomnieć?

Dane pozycyjne, dane pozycyjne i jeszcze raz dane pozycyjne. Szczególnie sprawdzanie otwartych przestrzeni. ExpectedGoals zostaje zamienione na ExpectedThreat, które analizuję cały przebieg akcji, a nie tylko moment strzały. To są kwestie, które się rozwija. Naukowcy Barcelony nie tylko modelowali przestrzeń, ale również nakładali kontekst postawy zawodników (pose estimation). Czy jest on w danym zagraniu odchylony w prawo, wygięty do tyłu – w piłce czasem decydują ułamki sekund, jeden zwrot. Orientacja ciała zawodnika bywa kluczowa.

Jak zaczęła się twoja współpraca z Legią?

Najpierw pisałem maile do PZPNu starając się zaproponować swoją pasję jako coś, co może im się przydać, potem do Legii. Nie było odzewu. Dopiero w 2017 roku postanowiłem, że spróbuję czegoś innego, powiedzmy nieszablonowego. Napisałem odręczny list do Dariusza Mioduskiego, który wysłałem na adres Legii. Dopiero po tym liście skontaktowano się ze mną.

Co napisałeś w liście?

Opowiedziałem konkretnie co mogę zrobić, a na koniec napisałem, że chciałbym być dla Legii jak główny bohater Moneyball. Dosłownie – “Pan będzie Billy Beane, ja Peterem Brandem z Moneyball”.

Od czego zacząłeś współpracę z Legią?

Zacznijmy od tego, że w Legii nie było zapotrzebowania na taką osobę jak ja. Nie było stanowiska, z klarownymi wymaganiami, zacząłem organiczną pracę od podstaw. Najpierw nie było wiadomo gdzie są dane, a jeśli są, to były niekompletne. Ktoś miał coś np. tylko na swoim laptopie. Zatem początkowo starałem się dowiedzieć kto i gdzie ma jakie danem. Później zajmowałem się najpilniejszymi rzeczami, czyli na przykład analizą taktyki przeciwnika.

Robiłem choćby mapy podań (passMapy): myślę, że większość kibiców kojarzy takie grafiki, na boisku są naniesione kropki oznaczające zawodników, połączone strzałkami oznaczającymi podania.  Takie coś oferują takie platformy jak np. choćby WyScout, z tym, że WyScout oferuje to w surowej formie, sam rysunek. Ja wrzuciłem w to algorytm PageRank, którego Google używa w swojej wyszukiwarce. Brałem dane z ostatnich kilku meczów, obliczałem Page Rank i wychodziło czarno na białym kto jest najważniejszy w siatce podań. Często to odpowiada temu, co widać czysto wzrokowo czy zawodnikowi, który ma najwięcej asyst. Niemniej nie zawsze.

Dzieliłem też pass mapy na mecze zwycięskie, remisowe, przegrane. Z tego choćby wynikało, że Górnik Zabrze we wszystkich swoich najgorszych meczach miał pass mapy, w których został zepchnięty do stref bocznych, a sam graf połączeń między zawodnikami był mniej gęsty, co oznacza, że nie ma dużej wymienności podań, piłką operowało głównie kilku graczy.

Screen Shot 08-19-19 at 01.56 PM

To też ma odzwierciedlenie w pracach światowych. Już analizując mundial w 2010 pokazano, że drużyny, które wygrywają mecze, znacznie częściej mają bardziej zróżnicowaną pass mapę, podczas gdy u przegrywających to kilka kluczowych ogniw wyróżnia się w grafie. Wniosek – jeśli chcesz grać lepiej, nie możesz mieć wąskiego gardła, nie możesz polegać na jednym czy dwóch zawodnikach.

Czym jeszcze zajmowałeś się w Legii?

Sekwencjami podań. Na InStacie dostępne są wszystkie podania, desygnacje, pozycje. Pokazywałam podania jako łańcuchy zdarzeń: od kogo najczęściej zaczynają się akcje, kto brał w nich udział, jak były zbudowane te, który faktycznie stworzyły zagrożenie, a z jakiej sekwencji zagrań – lub z czyim udziałem – najrzadziej coś wychodziło.

To o tyle ciekawe, że inspirowałem się tym, co robi się chociażby na zachodzie. Tam powoli nie tyle odchodzi się od Expectedgoals, co je dopracowuje, szukając kolejnych kontekstów, które pomogą opisać grę. Teraz to choćby expectedAssist i ExpectedBuildUp, czyli kwestie, które pozwalają oszacować ile dany zawodnik dołożył do niebezpiecznej akcji. To narzędzie może znacznie więcej dać np. przy ocenie pomocników.

Stworzyłem też krzywą expectedGoals (dokładnie średnią kroczącą) dla każdego trenera Legii począwszy od Berga. Pokazałem na danych, że w momencie, kiedy Sa Pinto po meczu z Wisła Kraków mówił, że Legia gra dobrze, ale nie sprzyjają jej wyniki, zakłamywał rzeczywistość. Legia nie stwarzała dobrych okazji, a dopuszczała rywali do wielu. Wcale nie brakowało jej wtedy szczęścia – wyniki odzwierciedlały grę.

Która Legia wypadała w tej krzywej najlepiej?

Za Magiery, zdecydowanie, z jesieni, kiedy Legia grała w Lidze Mistrzów. Wypadała tam na poziomie, który teraz wydaje się nieosiągalny. To była najmocniejsza Legia ostatnich lat. Wcześniejsza za Berga.

A zespół Czerczesowa?

Legia Czerczesowa nie stwarzała tak wielu okazji, ale bardzo ograniczała pole manewru rywalom. To ciekawe, bo myślę, że to właśnie selekcjonera Rosji w tym momencie kibice wspominają z największym rozrzewnieniem. Ciekawe jest, że Legia Besnika Hasiego miała największą dysproporcję między liczbą stwarzanych okazji, a liczbą strzelonych goli. Stwarzała ich dużo, ale miała fatalną skuteczność. Magiera natomiast wkrótce to jeszcze odmienił: Legia wciąż stwarzała dużo okazji, do niewielu dopuszczała, miała też dobrą skuteczność.

Screen Shot 08-19-19 at 01.55 PM 001

 Jak podchodzono do twojej pracy?

Sztab wykazywał pewną ciekawość, ale zarazem zachowywał dystans. Więcej uwagi poświęcał temu członek zarządu, który odnosił się do tego z większym entuzjazmem i chciał by to rozwijać. Szanuję, że jak na polskie warunki Legia jest gotowa odważnie postawić na analitykę danych. Na pewno jest w klubie duża wola rozwoju tej dziedziny, nawet jeśli bardziej na poziomie zarządzających niż sztabu.

Raz przy dyskusji o reformach UEFA zostałem też poproszony o wyliczenie takiego modelu rozgrywek, który sprzyjałby Legii. Aktualne współczynniki UEFA nijak mają się do aktualnego poziomu sportowego. Zaproponowałem szacowanie poziomu na podstawie rankingu ELO, czyli metodzie znanej z szachów gdzie każdy mecz zmienia twój ranking. Niedługo potem FIFA zaproponowała zmianę swojego rankingu krajowego, wzorując się właśnie na ELO. Jako ciekawostka – Legia z okresy meczu z Realem na L3, wg. mojego modelu miałaby 51% szans na awans z grupy Ligi Europy, podczas gdy teraz to około ~25%.

Legia chciała cię zatrzymać. Dlaczego odrzuciłeś ofertę Legia Lab?

Życie. Zarobki programisty po UW są niewspółmiernie lepsze niż na stanowisku, jakie miałbym pełnić w Legii.

Uważasz, że jesteśmy daleko w tyle za Zachodem jeśli chodzi o analitykę?

Myślę, że o dobre kilka lat, może nawet więcej. U nas wciąż jak ktoś coś powie więcej o statystyce, to znajdą się głosy, że z psem statystycznie mamy po trzy nogi. Takie jest podejście, że statystyki OK, ale jako ciekawostka dla kibiców, pomagająca ciekawie opisać grę. Tu jest oswojona. Znacznie gorzej dotrzeć do osób faktycznie decyzyjnych, choćby trenerów. Ci często dość otwarcie ignorują takie dane, bo przecież wieloletnie doświadczenie, bo z niejednego pieca chleb się jadło, po co mu takie dane potrzebne. Zaznaczę, że nie mówię tutaj akurat o Legii.

Zmiany w Polsce są, to jasne, ale mogłyby być większe. Najbardziej brakuje systemu z danymi pozycyjnymi, czyli to, co klubom zachodnim pomaga wejść na zupełnie inny poziom analityki. Starałem się stworzyć system, który zbierałby dane bezpośrednio z nagrania meczowego, ale to jest trudne ze względu na przerwy w transmisji, zbliżenia, powtórki. Niemniej jednak stworzyłem sam od podstaw nieźle działające narzędzie, namiastkę TRACAB. Poniżej namiastka w oparciu o zeszłoroczny mecz Legia – Zagłębie:

Obszary Voronoi pokazuje, która przestrzeń boiskowa należy do którego zawodnika/drużyny. Możesz zobaczyć jak tuż przed strzałem zawodnik stworzył sobie wolne pole.

Kto w Europie najmocniej stawia na analitykę?

Ciężko powiedzieć, bo zapewne jeśli już kto to robi to nie chce się tym chwalić. Wydaje się, że Barcelona i Liverpool. Ponoć na jednej z pierwszych rozmów z Kloppem w Liverpoolu, to analityk The Reds powiedział mu, że w sezonie, gdy zajął siódme miejsce z BVB, tak naprawdę powinien być drugi. Tak wskazywały wszystkie zaawansowane statystyki. Przypuszczam, że bazował na tzw. expectedPoints, podobną rzecz tworzę dla Ekstraklasy.

Tamta lokata BVB nie była spowodowana słabszą grą, a wyłącznie skumulowanym brakiem szczęścia/innymi czynnikami. Mówi się, że Mo Salah trafił do The Reds w dużej mierze w oparciu o te dane. Wcześniej wcale nie miał tak rewelacyjnych sezonów, ale  „ukryte liczby” mogły być lepsze. Barcelona też cały czas szuka nowinek, a już ma niezwykle rozbudowaną analizę, są w czołówce. Natomiast na Zachodzie w praktycznie każdym klubie jest analityk typowo naukowy. Skalę zmian pokazuję, przytaczany już kilka razy Football Manager, w jednej z ostatnich edycji wprowadzono stanowisko Naukowca Sportowego.

Jak my, polska piłka, mamy się w tym odnaleźć?

W książce „Homo deus” jest taki cytat o tym w jak szczególnych czasach żyjemy. Nigdy tak małe organizacje czy nawet grupy nie były w stanie wyrządzić tak wielkich szkód gigantom. W książce odnosiło się to konkretnie do cyber wojny, powiedzmy, banda hakerów może faktycznie zrobić kuku imperium. Ale to może się przełożyć na piłkę nożną i elitarność wiedzy. Wydaję mi się, że przewaga wiedzy to jedyny sposób na dogonienie “mitycznego” zachodu.

Nie zbudujemy sztabu godnego Liverpoolu, oni mają na to potężny budżet, my nie.

Dysproporcja finansowa dotyczy przede wszystkim piłkarzy, nie programistów, analityków, pracowników naukowych. Zawodnik LFC zarabia o wiele więcej niż piłkarz Legii, między analitykami nie będzie tak wielkiej różnicy.

Jak widzisz przyszłość analityki piłkarskiej?

W historii ludzkości często działo się tak, że jak pewne informacje czy dane zaczęły być udostępniane powszechnie, wtedy dokonywał się lawinowy rozwój.  Teraz dane pozycyjne popycha do przodu garstka, szczęśliwie dołączyłem do tego grona dzięki Opta, ale myślę, że jak jakaś firma zdecyduje się to udostępnić w większym stopniu, będzie to ważny dzień dla piłki nożnej.

Natomiast nie odkryję Ameryki mówiąc, że doczekamy się większej specjalizacji w sztabach. Stałe fragmenty gry to doskonałe pole badań dla analityków. Już teraz mamy analityków stricte do rzutów… z autu, a Liverpool jako analityka zatrudnia szachowego arcymistrza.

Kiedyś, kto wie, może przyjdzie czas, gdy przestanie istnieć coś takiego jak subiektywna ocena meczu. Wszystko będą w stanie obiektywnie zinterpretować liczby.

Rozsądne wykorzystanie danych pozwoli zminimalizować różnice wynikające z dysproporcji budżetów klubów z największych lig i całej reszty. Uważam, że w ciągu najbliższych 10 lat wiele uznanych klubów może stracić na znaczeniu, ponieważ nie zaimplementują w swojej działalności nowych paradygmatów – nie staną się klubami “data-oriented”.

Najbliższe lata przyniosą zapewne upowszechnienie zaawansowanych statystyk w tzw. mediach głównego nurtu. Kibice staną się coraz bardziej wymagający, a media dostosują się to tych wymagań, oferując nowe formy prezentacji danych w czasie transmisji.

Skutkiem zmiany myślenia o futbolowych danych może być też zmierzch funkcji trenera, w formie jaką obecnie znamy. Uważam, że w przyszłości sztaby będą składać się z większej liczby analityków, a kompetencje trenera zostaną ograniczone do prowadzenia treningów technicznych oraz motywowania zawodników.

Powiedz mi, jak oceniasz skuteczność dośrodkowań? Od dawna piszę, że to według mnie dramatycznie nieskuteczna forma ataku.

Dośrodkowania mają negatywny wpływ. Jest taka ciekawa praca, która analizuję sezon 13/14 Premier League – jeden gol tam pada średnio raz na osiemdziesiąt dośrodkowań. To jest gigantyczna liczba. Po dośrodkowaniach często też idą kontry

Nie wiem czy to dane pasujące do polskiej ligi.

Jak wszyscy grają dośrodkowaniami, to faktycznie te gole będą padać. Są oczywiście różne style drużyn, ale wydaje się, że lepsze drużyny częściej klepią przez środek, albo inaczej – nie uzależniają się od jednego konkretnego sposobu rozegrania.

Z wszystkich prac na ten temat wynika, że to jeden z najmniej opłacalnych elementów piłki nożnej. Wspomniana praca naukowa pokazała, że jeśli pewne drużyny mniej grałyby dośrodkowaniami, mogłyby uzyskać nawet o 0.6 gola na mecz.

Rozmawiałem nawet o tym, gdy byłem w Legii. Akurat trenerem był Klafurić. Usłyszałem:

– Niestety nie trafiłeś, bo nasz trener Klafurić jest fascynatem dośrodkowań.

Najskuteczniejsi w dośrodkowaniach są paradoksalnie ci, którzy grają nimi rzadko. Zapewne dlatego, że to zaskakuje, jest tylko jedną z broni w arsenale. Natomiast dośrodkowanie jest przydatne wtedy, kiedy nie masz argumentów na granie po ziemi, kiedy jesteś wyraźnie słabszy. Wtedy owszem, to szansa, że wstrzelisz piłkę i coś wpadnie. Natomiast gra w ten sposób z przeciwnikiem słabszym lub neutralnym nie ma sensu.

Dla równowagi powiem, że według wyliczeń długie posiadanie piłki też jest nieefektywne. Optymalne akcje są krótsze to takie z mniejszą liczbą podań – szybsze ataki. Można się nie zgodzić i wspomnieć, że giganci wymieniają często gigantyczną liczbę podań przed strzałem, jednak to raczej nie możemy tutaj mylić “corellation” z “causation”.

Jakie jeszcze mity rozbija współczesna analityka?

Efekt nowej miotły istnieje. Na krótką metę w zdecydowanej większości przypadków zachodzi poprawa w grze. Ale często bierze się to z kognitywnego błędu myślenia i równania do średniej. Kiedy zwalniamy? Kiedy drużyna jest w dołku. Bardzo często poprawa formy drużyny nie wynika z magicznych umiejętności nowego trenera, a po prostu regresu do średniej potencjału zespołu. Drużyna pewnie i tak zaczęłaby lepiej grać, nawet bez zwolnienia trenera. Niemniej my to tak łączymy, przypisując wszystko nowemu szkoleniowcowi.

Z innych mitów:

Drużyny ustawiające zawodników na obu słupkach przy rzucie rożnych, tracą najwięcej goli. Bardziej opłaca się zostawić zawodnika tylko na dalszym słupku. Przy rzutach rożnych jest większa szansa na gola po uderzeniu drugiej piłki niż bezpośrednio po dośrodkowaniu.

 inlineMichał Jaroń. Fot Marcin Łukasik

Michale, czym się dziś zajmujesz?

Dziś mam pierwszy odpoczynek od pięciu lat. Od jesieni zaczynam pracę w zawodzie, na brak ofert nie narzekam. Trochę ubolewam, że nie w piłce, ale trudno pracować dla samej idei.

Rozmawiał Leszek Milewski

Napisz Milewskiemu, że jego xG to 0.0

Śledź Michała Jaronia na Twitterze

KOMENTARZE (18)