Не везение, а рассчёт
Люди, которые не первый день интересуются ставками на спорт, знают, что именно большой теннис является едва ли не самым прогнозируемым видом спорта. Прогнозы на теннис очень популярны у многих. Слегка углубившись в тему теннисной кухни, можно определить причины предсказуемости тенниса.
• Гонка за рейтинговыми очками вынуждает топовых игроков играть почти каждую неделю. Во-первых, это позволяет тщательно отслеживать физическую форму теннисиста. Этот фактор крайне важен, ведь вся ставка делается на одного игрока в отличие от командных видов спорта. Во-вторых, частые встречи определённых соперников позволяют составить статистику их побед и поражений. • Отсутствие такого результата, как ничья, почти в полтора раза увеличивает шанс на выигрыш. • В теннисе больше факторов, которые остаются неизменными. Многие аспекты, предрешающие исход матча, стабильны и связаны с одним спортсменом. Антропометрические данные, манера игры, соответствие покрытия корта – постоянные «величины», и если они меняются, то очень медленно. В то же время результат командной игры зависит от действий каждого игрока в частности, от слаженности коллектива, напутственных слов тренера, морального климата в клубе и т. д. • Популярность тенниса среди букмейкерских контор, особенно в России. В то время как европейские хоккейная и баскетбольная лиги представлены в линиях букмейкерских контор далеко не всегда. Нельзя забывать и о форах на теннис, которые даются только в России.
Анализ теннисного матча
Покрытие
Это основной объективный фактор, который может повлиять на игру спортсмена. Покрытия бывают четырёх видов, их основной характеристикой является скорость отскока мяча. В порядке уменьшения скорости идут трава, ковёр (синтетика), хард и грунт. Медленное покрытие удобно для лёгких игроков среднего роста, а быстрое – для теннисистов с крепким телосложением. После мощной подачи такой тип игроков перемещается к сетке, так как комплекция затрудняет их резкие перемещения на задней линии. Наоборот, лёгкие игроки невысокого роста увереннее чувствуют себя на грунтах. Их манера характеризуется длительными розыгрышами и защитой вдалеке от сетки. К первой категории можно отнести Горана Иванишевича, Йоахима Йоханнсона и Марио Анчич, ко второй – большинство игроков испанской и аргентинской школы. Участвуя в букмейкерских розыгрышах соответствие покрытия стилю игрока – первое, на что нужно обратить внимание. Неоспоримый факт, что зачастую именно покрытие решает исход матча.
Текущая форма теннисиста
Сделать выигрышную ставку на игрока поможет мониторинг его последних 4-5 матчей и матчей соперника. При этом, нужно помнить, что настрой игрока влияет нисколько не меньше. Поэтому ставка на эмоционального теннисиста – двойной риск. Также стоит насторожиться, если игрок недавно перенёс травму. Во-первых, за время отсутствия на корте его физическая форма может пострадать, во-вторых, увеличивается риск травмы, которая вряд ли поможет победить.
Личные встречи теннисистов
Не многие делают ставки, основываясь на этой статистике. Но обращая внимание на результаты прошлых встреч, можно сделать первоначальные прогнозы. Вспомним Марию Шарапову, которая за всю историю ни разу не одержала победу над Сереной Уильямс.
Мотивация на матч, усталость
Зачастую спортсмен не стремится к победе любой ценой. Причин тому несколько:
• Теннисист восстанавливает силы после крупного турнира. Тем более, если в ходе него набраны хорошие очки. • Спортсмен готовится к предстоящему турниру, набирает необходимую форму, бережёт себя от травм. • Когда турнирная задача уже выполнена. Например, если проход в финальную часть турнира уже гарантирован, а впереди еще остался квалификационный матч.
Чтобы успешно делать ставки в теннисе не обязательно просматривать все матчи, достаточно наблюдения за статистикой, но излишний интерес к своему делу ещё никому не навредил.
tennisportal.ru
Уже давно известно, что именно большой теннис является практически идеальным выбором как для новичков в ставках, так и для профессионалов. Причины этого понятны — фактор случайности здесь сведен к минимуму, а соревнования проводятся практически круглый год, чего не увидишь в других видах спорта .
Существует много факторов, которые делают именно теннис предпочтительным видом спорта для ставок в букмекерских конторах. Тут нужно оценить состояние и шансы только 2-х игроков, что значительно проще, чем пытаться предугадать поведение целой команды. Благодаря современным системам Hawkeye практически исключены судейские ошибки, тогда как в футболе, например, судья может серьезно повлиять как на ход, так и на результат матча. Игра продолжается до момента определения победителя, потому здесь нельзя сыграть «на удержание счета» или «на ничью», которой в теннисе не бывает. В итоге получается, что именно теннис лучше всего поддается прогнозированию, а значит и ставки на него наиболее прибыльны.
Существует ряд базовых стратегий, с которых начинают практически все игроки. Подавляющее большинство новых «разработок» и «изобретений» является просто их «модернизацией». Это связано с тем, что большинство стратегий, которые можно считать базовыми, изначально разрабатывались для игры в казино и не могут быть использованы в букмекерской конторе в «чистом» виде.
При этом следует помнить, что отсутствие конкретной финансовой и игровой стратегий практически всегда приводит к банкротству игрока. Для новичков оптимальной стратегией является «флэт» (ставки фиксированного размера) в качестве финансовой стратегии и ставки на исход матча в качестве игровой. Более опытные игроки, которые уже умеют оценивать шансы теннисистов, предпочитают «value betting», которую можно назвать практически единственной беспроигрышной стратегией в связи с постепенным «отмиранием» такой популярной но чисто механической стратегии, как «вилки».
Мы не занимаемся продажей платных прогнозов, разнообразных «беспроигрышных систем» и т. п. Мы просто показываем, как проводится выбор и анализ матча, собираем интересную информацию и новости о теннисистах, рассматриваем предстоящие турниры, помогаем в выборе букмекера. Прогнозы, которые публикуются на нашем сайте, это исключительно субъективное (но при этом — аргументированное) мнение наших прогнозистов.
Новости тенниса мы стараемся выбирать содержательные. Мало интересного говорить о том, кто выиграл очередной турнир, если этим «заполнен» весь интернет. Гораздо интереснее информация о травмах, истории и интервью игроков. Также мы постараемся проводить предварительный анализ некоторых турниров.
tennis-gid.ru
В этом обзоре я рассмотрю основные математические методы прогнозирования тенниса: иерархические марковские модели, алгоритмы машинного обучения, а также разберу кейсы IBM, Microsoft и одного российского сервиса, использующих машинное обучение для прогнозирования результатов теннисных матчей.
СодержаниеЧасть 1Введение в проблему прогнозирования теннисаДанные для теннисаСтавки на спорт
Статистические моделиЧасть 2Машинное обучение в теннисе Модели машинного обученияСистема очков в теннисе имеет иерархическую структуру: матч состоит из сетов, которые состоят из геймов, которые состоят из отдельных очков. В большинстве современных подходов к прогнозированию тенниса эта структура используется для получения иерархических выражений вероятности победы игрока в матче на основе марковских цепей. Если считать, что очки в теннисе распределяются независимо и одинаково (independent and identical distribution, IID)[1], для получения выражения необходимо знать только вероятность выигрыша каждым игроком очка при подаче. На основании этой базовой статистики, которую легко получить из исторических данных в Интернете, можно вычислить вероятность выигрыша каждым игроком гейма, потом сета и, наконец, матча.
При всей изящности такого подхода, он не может быть признан идеальным. Представляя качества игроков только по одному параметру (выигранные очки при подаче) такой метод неспособен учитывать более тонкие факторы, которые также влияют на исход матча. Например, приверженность игрока определенной стратегии, время после травмы, общая усталость от предыдущих матчей могут лишь косвенно повлиять на прогноз матча, полученный методом иерархических моделей. Более того, характеристики самого матча – покрытие, местоположение, погода – вообще не учитываются в таком прогнозе.
Принимая во внимание огромное количество исторических данных по теннису, можно предложить альтернативный подход к прогнозированию теннисных матчей – машинное обучение. Параметры игроков и матча вместе с результатом матча могут составить обучающую выборку. Алгоритм машинного обучения с учителем может использовать эту выборку для построения функции предсказания результатов новых матчей.
Несмотря на то, что машинное обучение само собой напрашивается для решения проблемы прогнозирования тенниса, этот подход до недавнего времени привлекал значительно меньше внимания исследователей, чем стохастические иерархические методы. В большинстве исследований применения машинного обучения к теннису используются логистическая регрессия и нейронные сети. ROI наиболее точной модели, описанной в научной литературе, составляет 4,35%, что по заявлению автора на 75% лучше современных стохастических моделей [2].
Большинство онлайн-сервисов прогнозов на теннис (людей-прогнозистов не рассматриваем) используют именно стохастические модели и предлагают пользователям вероятности победы каждого игрока с сопутствующей статистикой, которую предлагается анализировать самостоятельно. Я рассмотрю более интересные случаи, когда с помощью алгоритмов машинного обучения анализируются не только вероятности выигрыша очка при подаче, но и историческая статистика по игрокам и параметры матча. Я рассмотрю кейсы таких гигантов как IBM, Microsoft, а также российского сервиса OhMyBet!, прогнозирующих теннис с помощью алгоритмов машинного обучения.
Но обо всем по порядку.
Наиболее релевантные данные, которые можно взять из подобных баз данных, представлены в таблице ниже.
Данные об игроке | Имя |
Дата рождения | |
Страна | |
Призовой фонд | |
Рейтинг по очкам | |
Общий рейтинг ATP или WTA | |
Данные о матче | Название турнира |
Тип турнира (например, Большой шлем) | |
Покрытие корта | |
Местоположение (страна, координаты) | |
Дата | |
Результат (счет по сетам) | |
Призовой фонд | |
Коэффициенты (от Pinnacle) | |
Поматчевая статистика для обоих игроков | Процент выигрыша на первой подаче |
Эйсы | |
Двойные ошибки | |
Невынужденные ошибки | |
Процент очков, выигранных при первой подаче | |
Процент очков, выигранных при второй подаче | |
Процент очков, выигранных при приеме | |
Победители | |
Брейк-пойнты (выигранные, всего) | |
Выходы к сетке (выигранные, всего) | |
Всего выигранных очков | |
Самая быстрая подача | |
Средняя скорость первой подачи | |
Средняя скорость второй подачи | |
Коэффициенты (от Pinnacle) |
Ставки на теннисные матчи можно размещать либо в букмекерских конторах (онлайн и оффлайн), либо на биржах ставок. Традиционные букмекеры (например, Pinnacle) устанавливают коэффициенты на различные исходы матча, а клиент (беттор) играет против букмекера. В случае бирж ставок (например, Betfair) клиенты могут делать ставки против коэффициентов, установленных другими бетторами. Биржа уравнивает ставки клиентов и зарабатывает на сборе комиссии с каждой сыгравшей ставки.
Коэффициенты выражают предполагаемую вероятность исхода матча, то есть оценку букмекером истинной вероятности. В описанном выше примере с коэффициентом 3,00 (1 к 3) предполагаемая вероятность p победы игрока в матче равна 33%.
В таблице ниже представлены различные системы записи коэффициентов и соответствующие им предполагаемые вероятности.
Десятичные (Европа) | Дробные (Великобритания) | США | Гонконг | Индонезия | Малайзия | Предполагаемая вероятность |
1,50 | 1/2 | -200 | 0,50 | -2,00 | 0,50 | 1 к 1,5 = 67% |
2,00 | 1/1 (evs) | +100 | 1,00 | 1,00 | 1,00 | 1 к 2 = 50% |
2,50 | 6/4 | +150 | 1,50 | 1,50 | -0,67 | 1 к 2,5 = 40% |
3,00 | 2/1 | +200 | 2,00 | 2,00 | -0,50 | 1 к 3 = 33% |
X | Персчитать в | Действие |
Десятичные | Дробные | x-1, затем преобразовать в дробь |
Десятичные | США | 100*(x-1) если x>2; -100/(x-1) если x<2 |
Дробные | Десятичные | разделить дробь, затем x+1 |
Дробные | США | разделить дробь, затем 100*x если x>=1; -100/x если x<1 |
США | Десятичные | (x/100)+1 если x>0; (-100/x)+1 если x<0 |
США | Дробные | x/100, если x>0; -100/x, если x<0 |
Десятичные | Гонконг | x-1 |
Гонконг | Индонезия | x если x>=1; (1/x)*-1 если x<1 |
Гонконг | Малайзия | x если x<=1; (1/x)*-1 если x>1 |
Прибыль за определенный период времени называется возвратом инвестиций (return on investment, ROI). В случае ставок на спорт ROI – это процент выигрыша с каждой сделанной ставки, усреднённый на дистанции. Упрощенная формула ROI при фиксированном размере ставки выглядит так: где Pn – общая прибыль на дистанции, s — сумма одной ставки, n — количество ставок (дистанция). ROI – это основной показатель успешности беттора, и, соответственно, – целевой показатель эффективности прогностической модели.
Измерение эффективности модели на основании ROI, вычисляемого на исторических данных рынка ставок, является общепринятым подходом в исследованиях в этой области (в том числе в [2], [4], [7]). Если в качестве целевого значения выбирать точность модели (процент верных прогнозов), то при тривиальной фильтрации матчей по низким коэффициентам (1,01-1,3) можно приблизиться к точности 90% и более, но по понятным причинам, ROI при этом будет отрицательной.
Беттор ставит долю от максимального размера ставки q на предсказанного победителя, если по его оценке он имеет преимущество:
Фактически максимальный размер ставки q – это доля от банка беттора, которая, соответственно, изменяется с течением времени, в зависимости от успеха предыдущих ставок. При оценке прогностических моделей q часто принимается за константу, так чтобы все ставки одинаково влияли на результирующий ROI.
Важно отметить, что во всех трех стратегиях нельзя делать ставки на обоих игроков. Также, если при первой стратегии нужно ставить на каждый матч, рекомендованный моделью (при условии, что оценочная вероятность никогда не бывает ровно 0,5), то вторая и третья стратегии предполагают пропуск некоторых матчей.
Формально, цепью Маркова называется система переходов между разными состояниями в пространстве состояний. Важным свойством системы является отсутствие памяти, то есть, следующее состояние системы зависит только от текущего состояния, а не от предшествующей последовательности состояний. Если принять счет в гейме за пространство состояний, а за переходы между состояниями – вероятности того, что игрок А выиграет или проиграет очко, получим цепь Маркова, отражающую стохастическую прогрессию счета в гейме. На рисунке ниже показана схема цепи для одного гейма с подачами игрока А. Обозначив p вероятность выигрыша очка при подаче и принимая допущение IID, получим, что все переходы, означающие очко, выигранное игроком А, имеют ту же вероятность, а все переходы, означающие проигранное очко, имеют вероятность 1–p.Марковская цепь для гейма в матче, где подает игрок А [2].
За счет иерархической структуры теннисного матча строятся дополнительные марковские цепи, моделирующие прогрессию очков в тай-брейках, сетах и матчах. Например, в модели матча будут два исходящих перехода из каждого неокончательного состояния, помеченные вероятностями выигрыша и проигрыша отдельного сета игроком. Диаграммы таких моделей можно посмотреть в [4].
Барнет и Кларк описывают вероятность победы игрока А в гейме при своей подаче Pgame с помощью следующего рекурсивного определения:
Граничные значения следующие:
В приведенных выражениях р – это вероятность выигрыша игроком А очка при подаче, x и y – количество очков, выигранных соответственно игроками А и В. Это выражение полностью соответствует марковской цепи на рисунке выше.
Барнет и Кларк также определяют сходное выражение вычисления вероятности выигрыша по сетам на основании вероятностей выигрыша отдельных геймов и тай-брейков (которые тоже зависят от вероятностей выигрыша при подаче). Наконец, вероятность выигрыша в матче можно рассчитать с использованием ранее определенных выражений. Получается, что итоговое выражение для вероятности победы в матче зависит только от вероятности выигрыша очка при подаче каждым из игроков.
Итак, для матча между игроками А и В мы можем оценить вероятности выигрыша очка при подаче игроками А и В соответственно как fAB и fBA, используя следующее уравнение: где ft – средний процент очков, выигранных при подаче на турниреfav – средний процент очков, выигранных при подаче для всех игроковgav – средний процент очков, выигранных при приеме для всех игроков
Madurska [4] далее расширила модель общего соперника Кноттенбельта, использовав разные вероятности выигрыша очка при подаче для разных сетов. Таким образом, автор отказалась от допущения IID и ее модель отражает накопление физической усталости у игрока по ходу матча.
Модель общего соперника Кноттенбельта и посетовая модель Мадурски – это наиболее современные статистические модели, авторы утверждают, что ROI по их моделям составил соответственно 6,8% и 19,6% в сравнении с рынком ставок на матчи турниров WTA Большого шлема 2011 года. Модель общего соперника также тестировалась на более крупной и разнообразной выборке из 2173 матчей ATP 2011 г. и показала ROI 3,8%.
Продолжение следует
habr.com