در فصل اول کتاب ، راجع به یادگیری تقویتی و رابطه آن با هوش مصنوعی صحبت خواهد شد. سپس عمق را زیاد کرده، تا سعی شود نسبت به بلوک های ساختمانی پایه یادگیری تقویتی مثل حالت، عامل، محیط، و پاداش، شناخت بیشتری حاصل شود. چالشهای هر جنبه با استفاده از مثا لهای متعدد مطرح خواهد شد تا درک فطری خوبی بدست آمده، و مبنای مستحکمی قبل از ورود به موضوعات پیشرفته ایجاد شود. نحوه انجام بهترین اقدام و سیاست برای یادگیری عامل نیز مورد بحث قرار می گیرد. تفاوت بین سیاست روشن و سیاست خاموش نیز مطرح خواهد شد.
فصل دوم: شناخت ریاضی و الگوریتمی فصل سوم:کد سازی محیط و حل MDPها فصل چهارم: یادگیری تفاضلی زمانی، SARSA و یادگیری Q
فصل پنجم: کدسازی یادگیری Q فصل ششم: مقدمه یادگیری عمیق فصل هفتم: منابع پیاده سازی فصل هشتم: شبکه عمیق Q، دوتایی و دوئل
فصل نهم: ;کدسازی DQN دوتایی فصل دهم: رویکردهای سیاست پایه فصل یازدهم: مدلهای فاعل- منتقد فصل دوازدهم: کدسازی A3c
فصل سیزدهم:گرادیان سیاست قطعی وDDPG فصل چهاردهم : کدسازی DDPG
کتاب یادگیری تقویتی عمیق