プログラマ専用SNS ミクプラ

強化学習のプログラミングをしようと思うのですが、いざプログラムを書こうとすると、よくわかりません。
例えば追跡問題で３×３を状態入力として、行動を決定するというプログラムの設定のところが分かりません。
何のプログラムでも良いので、強化学習の状態入力のプログラムの書き方を教えてください。

いきなり答えを例で良いから教えてくれ・・・って言われても解答が付きにくいと思いますよ。

強化学習？
追跡問題？
３×３？
行動を決定？

なにをどう想定されているのか。また、どのような環境でのプログラミングなのか？
ここを閲覧している回答者（や管理人さん）らは神様でもエスパーでもありません。

課題なのでしたら、もう少し前提条件が提示されていなかったでしょうか？

http://okwave.jp/qa4158420.html
↑でも同じ質問をしている人がいるようです。
参考にしてください。

> 強化学習のプログラミングをしようと思うのですが、
> いざプログラムを書こうとすると、よくわかりません。

まずは強化学習のアルゴリズムを理解し、紙の上で「学習」してみましょう。
乱数が必要ならばサイコロを振るなりして下さい。
３×３程度ならば、正しい学習手順と根気があれば、学習の効果が得られるでしょう。
正しい学習手順で学習の効果が確認できたら、その手順をプログラムにします。

別の方法として、上述の機械的な根気を必要としないアプローチも提案します。
こっちの方が本来の形だと思います。機械的な根気はプログラマの仕事ではなく、
プログラムの仕事ですから。

アルゴリズムを理解してそれをプログラムにする力が身についてないのでしょうから、
その実力を身に付けましょう。各種ソートなどが、アルゴリズムの解説も
ソースコードも丁寧な説明が見つけやすいです。
GAでナップサック問題やTSPを解くことなども、強化学習の関連分野なので、
直接役に立つでしょう。

プログラマ専用SNS ミクプラ

強化学習のプログラミング

強化学習のプログラミング

Re:強化学習のプログラミング

Re:強化学習のプログラミング

Re:強化学習のプログラミング