Autonomous Agent Manual (Self-Navigating)
概要
AI (Gemini 3.0 Flash) がブラウザ画面(スクリーンショット)を直接見て、目的に向かって自律的に操作を決定・実行する「自律型ブラウザエージェント」のマニュアルです。
主な機能
- 目的達成型ブラウジング: 「〇〇を探して」「〇〇を調べて」といった抽象的な指示だけで、AIが手順を考えて実行します。
- マルチモーダル認識: 画面上のボタン、フォーム、テキストを視覚的に理解します。
使い方
Discordチャンネル #ai-commands にて指示を出します。
コマンド例
- 基本: 「Amazonで一番安いiPhoneケースを探して」
- ニュース: 「Yahooニュースで最新のIT記事をチェックして」
- 調査: 「Googleで〇〇について調べて要約して」
動作フロー
- 指示: ユーザーがゴールを提示。
- 思考ループ:
- ブラウザ起動 → スクショ撮影
- AI思考: 「次は検索窓に入力すべきだ」
- アクション実行: 入力 → Enter
- (これをゴール達成まで繰り返す)
- 完了: 結果をテキストとスクリーンショットで報告。
技術仕様
- スクリプト:
scenarios/autonomous_agent.py - AIモデル:
gemini-1.5-flash(高速・視覚対応) - 制限: 1タスクあたり最大15ステップ(無限ループ防止)