Google Bard マルチモーダル機能検証

記事

IT・テクノロジー

最近、Google Bard がアップデートしてマルチモーダル機能が使えるようになったのでなにができるのか検証していきます！

Google Bard マルチモーダル設定方法

まずは、最新のアップデートのGoogle Bard のマルチモーダルを使用するの方法を紹介。設定変更が必要になりますので以下の手順で変更しましょう！

１．Googleのブラウザを開き、右上のアカウントマークをクリックします。

２．「Googleアカウント管理」を選択し、アカウントのページに移動します。

３．「個人情報」をクリックし、下部にある「Web向けの全般設定言語」を選択します。

４．デフォルトで日本語に設定されている場合は、英語に変更します。

５．設定が完了しました。

これで、Google Bard のマルチモーダル機能を利用する準備が整いました。

以下に、Google Bard のマルチモーダル機能の検証結果を紹介します。

福島県の大内宿に行った時の写真をアップロードし、場所の特定を依頼してみたらちゃんと答えてくれました。

自分の家の近くを取ると場所が分かってしまうので茨城県内で遊びに行った時の写真をアップロードして、場所の解析をしてもらいました。本当に僕が撮った写真だったのですが他のサイトからのものと言われてしまい少し残念です。

数学の問題の画像を与えて答えを求めてみました。

まずは、少し複雑な因数分解の問題の画像を与えてみました。画像には5つの問題が書かれています。さて、どう回答するのでしょうか？実際にサイトにあった画像と答えを使いました。

簡単な問題を解かせてみたいと思います。

これは解いてくれました！おそらく質問文を変えれば難しい問題も解いてくれるのではないでしょうか。

次に、画像の色について質問してみます。質問をもう少し具体的にすれば複数の色を答えてくれそうですね。

画像に映っている商品の類似の商品を提案してくださいと質問してみました。今回は、MacBook Air の画像を使ってみました。そうしたら、ちゃんと類似の商品、説明とリンク付きの画像が出てきました。

手書きのスケッチでもできるのですが今回はワイヤーフレーム画像を使ってコーディングしてもらいました。実際にやってみて、HTML、CSSでコードを出力してくれるが精度やクオリティに改善が必要なのかなと思いました。

Bard の回答をそのまま載せます。そしてこのコードを実際にVScodeで貼り付けた画像も載せます。

以下の画像が先ほどのコードをVScodeに貼り付けたものです。なんかめちゃくちゃなのがまた面白いですね。今後に期待です！

検証はしてないのですがこれはできるでしょというのを書いていきます。

・画像からテキストを抽出。たとえば、文書や製品ラベルなどです。

・画像を異なる言語間で翻訳。

・画像から創造的なコンテンツを作成します。たとえば、詩や物語などです。

今回は、Google Bard のマルチモーダル機能の設定の仕方、検証結果を書きました。これから様々な分野で応用ができそうですね。ぜひ、Google Bard 使ってみてください！最後まで見て頂きありがとうございました！