Обучение с подкреплением в опционных стратегиях: месяц экспериментов
Честный рассказ о сложностях применения RL в деривативах
Игорь Петров, физик по образованию, потратил месяц на создание агента с обучением с подкреплением для торговли опционами. Результаты оказались неоднозначными.
Постановка задачи
Агент должен был выбирать между пятью действиями: покупка call, покупка put, продажа покрытого call, продажа покрытого put и бездействие. Состояние описывалось 23 параметрами, включая текущую позицию, волатильность, время до экспирации и греки опционов. Награда рассчитывалась как изменение капитала минус транзакционные издержки.
Технические детали
Использовался алгоритм Deep Q-Network с буфером опыта на 50,000 переходов. Нейронная сеть состояла из трех полносвязных слоев по 256, 128 и 64 нейрона. Обучение проводилось на симуляторе с историческими данными за четыре года.
Что пошло не так
В симуляции агент показывал годовую доходность 23%, но на реальных данных слился на 7% за две недели. Причина - модель не учитывала проскальзывание и ликвидность. После добавления реалистичной модели исполнения доходность в симуляции упала до 4%, что ставит под вопрос целесообразность подхода для розничного трейдера.
Хотите начать применять эти стратегии?
Свяжитесь с нами, чтобы узнать больше о наших курсах по машинному обучению в количественной торговле. Мы поможем вам освоить инструменты и подходы, которые работают на практике.
Связаться с нами