From: Coded unicast downstream traffic in a wireless network: analysis and WiFi implementation
State transition matrix P π ̂
Reward vector r π ̂
1 2 [ ( 1 − p a ) + ( 1 − p b ) ] + p a p b 1 2 p a ( 1 − p b ) 1 2 ( 1 − p a ) p b 0 0 ( 1 − p b ) + p a p b 0 ( 1 − p a ) p b 0 0 ( 1 − p a ) + p a p b p a ( 1 − p b ) ( 1 − p a ) ( 1 − p b ) p a ( 1 − p b ) ( 1 − p a ) p b p a p b
1 2 ( 2 − p a − p b ) 1 − p b 1 − p a 2 − p a − p b