高維情境式多臂老虎機問題的自適應演算法 (統計所銀慶剛教授)

系所:統計所            教師姓名:銀慶剛教授

發表期刊:美國統計學會會刊

標題:高維情境式多臂老虎機問題的自適應演算法

摘要:本文探討一個重要的高維序貫決策問題,稱為高維情境式多臂老虎機(Multi-armed Bandit Problem with High-dimensional Covariates)。作者提出了一個創新的多階段手臂選擇演算法,整合了手臂消除和隨機分配策略,能序貫地辨識出報酬最佳的手臂。此方法獨到之處在於其自適性,可在不同的邊際條件下,自動地調整出最佳的手臂選擇策略,達到漸進最佳的累積報酬(或最小的累積預測誤差)。此外,它也透過貪婪演算法以及高維訊息準則,獲得特徵選取和參數估計的一致性。