全信息选最大:100 个 U(0,1) 的最优停策略
Choosing the Largest Random Number
题目详情
As a second task, the king wants the wise man to choose the largest number from among 100, by the same rules, but this time the numbers on the slips are randomly drawn from the numbers from 0 to 1 (random numbers, uniformly distributed). Now what should the wise man's strategy be?
解析
这是“全信息最大选择问题”(full-information best choice)。最优策略是阈值型:在第 次看到当前记录值 时,当且仅当 超过一个只依赖于剩余次数的阈值 才停止。
可用动态规划递推阈值:设 为在当前已见最大值为 、还剩 个样本未见时,最终选到总体最大值的最优概率,则
当观测到新的记录值 且剩余为 时,停止的胜率为 ;继续的最优胜率为 。因此存在阈值 使得 时停止最优。
对于 ,该最优胜率约为 0.58(与极限值约 0.580 的结果非常接近)。