すべてのカテゴリ

1 件中 1 - 1 件表示

Geminiがパソコン自動操作をはじめたらしい

GoogleがAIを使った新しい自動操作モデル「Gemini 2.5 Computer Use」のプレビュー版を発表した。パソコンを直接操作できるAIエージェントとして、マウスカーソルの移動やクリック、フォームの入力など、まるで人間のようにPCを遠隔操作する様子が実現されている。 Geminiはこれまでのチャットボットの枠を超え、ユーザーのタスク自動化や業務用PCの管理など、より現実世界に近いアクションを取ることができる。たとえばスクリーンショットをキャプチャして、その画面をAIが視覚的に分析し、必要な要素を見つけて自動で操作する――まさしくエージェント型AIの大きな進化だと思う。現時点では主にウェブブラウザーでの動作がメインだが、デスクトップOSレベルでの制御も意識して開発が進められているようだ。 AIがユーザーに代わってアプリを操作し、定型業務をこなしてくれる日も近そうだ。もちろん、このような高機能AIエージェントにはリスクも伴う。たとえば、ユーザーの意図しない操作や、悪用、プロンプトインジェクションによる詐欺などが懸念されている。このため、Googleはリスクの高い操作に対してユーザーへの確認を求めるなど、安全対策も進めている。プログラムを書く立場とすれば、こうした「ユーザーに代わってPCをまるごと操作できるAI」は妄想が現実になったようで、すごくワクワクする。フォーム入力やクリック操作を自前でスクリプト化していた作業が、自然言語の命令ひとつで置き換わるかもしれない。今後、アプリケーション設計もAIとの連携や安全性を前提にしたものへと進化していくのだろう

IT・テクノロジー