2025-09-13 2 мин

Обучение с подкреплением в опционных стратегиях: месяц экспериментов

Честный рассказ о сложностях применения RL в деривативах

Автор: Андрей Белов

Обучение с подкреплением в опционных стратегиях: месяц экспериментов

Игорь Петров, физик по образованию, потратил месяц на создание агента с обучением с подкреплением для торговли опционами. Результаты оказались неоднозначными.

Постановка задачи

Агент должен был выбирать между пятью действиями: покупка call, покупка put, продажа покрытого call, продажа покрытого put и бездействие. Состояние описывалось 23 параметрами, включая текущую позицию, волатильность, время до экспирации и греки опционов. Награда рассчитывалась как изменение капитала минус транзакционные издержки.

Технические детали

Использовался алгоритм Deep Q-Network с буфером опыта на 50,000 переходов. Нейронная сеть состояла из трех полносвязных слоев по 256, 128 и 64 нейрона. Обучение проводилось на симуляторе с историческими данными за четыре года.

Что пошло не так

В симуляции агент показывал годовую доходность 23%, но на реальных данных слился на 7% за две недели. Причина - модель не учитывала проскальзывание и ликвидность. После добавления реалистичной модели исполнения доходность в симуляции упала до 4%, что ставит под вопрос целесообразность подхода для розничного трейдера.

916

Хотите начать применять эти стратегии?

Свяжитесь с нами, чтобы узнать больше о наших курсах по машинному обучению в количественной торговле. Мы поможем вам освоить инструменты и подходы, которые работают на практике.

Связаться с нами