Autonomous Agent Manual (Self-Navigating)

概要

AI (Gemini 3.0 Flash) がブラウザ画面(スクリーンショット)を直接見て、目的に向かって自律的に操作を決定・実行する「自律型ブラウザエージェント」のマニュアルです。

主な機能

  • 目的達成型ブラウジング: 「〇〇を探して」「〇〇を調べて」といった抽象的な指示だけで、AIが手順を考えて実行します。
  • マルチモーダル認識: 画面上のボタン、フォーム、テキストを視覚的に理解します。

使い方

Discordチャンネル #ai-commands にて指示を出します。

コマンド例

  • 基本: 「Amazonで一番安いiPhoneケースを探して」
  • ニュース: 「Yahooニュースで最新のIT記事をチェックして」
  • 調査: 「Googleで〇〇について調べて要約して」

動作フロー

  1. 指示: ユーザーがゴールを提示。
  2. 思考ループ:
    • ブラウザ起動 スクショ撮影
    • AI思考: 「次は検索窓に入力すべきだ」
    • アクション実行: 入力 Enter
    • (これをゴール達成まで繰り返す)
  3. 完了: 結果をテキストとスクリーンショットで報告。

技術仕様

  • スクリプト: scenarios/autonomous_agent.py
  • AIモデル: gemini-1.5-flash (高速・視覚対応)
  • 制限: 1タスクあたり最大15ステップ(無限ループ防止)