研究記事にあったのですが、複数のAIの回答を総合判断して、最終回答を出すような仕組みにすると、精度がかなり上がるそうです。
複数のAIが協力して回答する具体的な例として、以下のようなケースが挙げられます:
1. マイクロソフトが開発したAutoGenフレームワークを使用した例があります。このシステムでは、異なる役割や目的を持つ複数のAIエージェントが協力して問題解決にあたります。例えば、「記者」と「編集者」の役割を持つAIエージェントが協力して、AIの共同作業に関する記事の計画を立てるという実験が行われました。
2. 数学の問題解決において、2〜4つのAIエージェントが協力することで、単独のAIエージェントよりも5年生レベルの数学の問題をより確実に解けることが示されています。また、チェスの問題を論理的に解いたり、コンピューターのコードを分析し改善したりする際にも、複数のAIエージェントの協力が効果的でした。
3. AIによるディベートの例もあります。「AIは人間の仕事を奪うか?」というテーマに基づいて、AI1(奪う派)とAI2(奪わない派)がリアルタイムでディベートを展開するシステムが作成されています。これにより、テーマについてより深い考察が可能になります。
4. 生成AI(LLM)による自動評価技術では、複数の役割を持つAIが協力して評価を行います。例えば、文法や一貫性などの客観的観点を評価する役割と、簡潔さや訴求力などの主観的観点を評価する役割を組み合わせて、より包括的な評価を行います。
これらの例は、複数のAIが協力することで、単独のAIよりも複雑な問題に対処したり、より多角的な視点を提供したりできることを示しています。この協調アプローチにより、AIシステムの能力と効果が向上する可能性があります。
こんな風な内容です。
で、3つのAI(GPT,GEMINI,Claude)から得た回答を与えて、
最終回答を作成してもらうような仕組みを作ってみました。
たしかに、プログラムコードなどは、AIによって回答が違うときが
どれがよい、悪いというのがあります。
間違いがあるということではなく、使い勝手のよいコードが出てくるときがあります。
そんなわけで、この総合評価型のAIフローの仕組みを作りました。
最初は、coze.comで作り、うまく行ったのですが、この仕組みはトークン数がかなり消費されてしまいので、すぐにアップグレードの案内となり、実際には継続的に使えませんでした。
そこでオリジナルのWEBツールとして作成してみました。
「AIベストアンサー」
選択したAI(デフォルトは3つとも)に質問をして、それぞれの回答を表示します。それでもよいのですが、回答をまとめてもらいたい時は、その下の「総合判断」を押します。
最終判断のAIは、inputトークン数が大きいGeminiにしています。
以下は、「最強サッカーチーム名」を考えて、総合判断してもらいました。
各AIの回答が混ざり合っているようです。アイデア出しなども、広範囲からアイデアが出るのでよいですね。
すこし、計算でいじめてみました。
質問)
1から順に1000になるまで、足していったらいくらになりますか?
但し数字が5の倍数や12の倍数の場合は、スキップしてください。
最初は3つとも回答が違うけど、総合判断で正解にたどり着いていますね。
客観視させると、やはり精度が上がるのかな。人と同じように。
それにしても、claudeの計算力はひどいなあ。