【2025年5月8日最新版】1週間で激変した最新の生成AIツールニュースまとめ

記事
マネー・副業
こんにちは!AIディレクターZENです。

今回は、今週リリースされたばかりの最新AIツールを徹底解説し、この記事を見ているあなたが明日から即実践できる具体的な活用法を紹介しますので最後まで見ていってくださいね!

本題に入る前に僕のサービスを軽くご紹介させてください!

まず、AIライティングを今後、視野に入れている方、社内で活用したい会社の方に僕が3年以上「検証と実行」を繰り返して構築したプロンプトテンプレートをご用意しましたので、ぜひ検討されてみてください。

買い切り型!ライティング用の呪文テンプレを渡します



このプロンプトテンプレートのパッケージの内容は
・ハルシネーションを抑えたAI検索用のプロンプト
・その情報を基に記事のアウトライン構築
・構築したアウトラインのリライト用のプロンプトテンプレート

また、以下のプロンプトパックではビジネスやデザイナーやクリエイター向けの本格的な画像生成に特化したプロンプトパックもございますので、ぜひご拝見くださいませ!

買い切り!画像生成プロンプト約500種類渡します

「完全未経験でも生成AIをフル活用して副業ロードマップ」
主に生成AIを活用したサービスを主に発信しています〇
ぜひこの機会にご利用を検討されてみてくださいね!

どれでは本題に入っていきましょう!!!

今日の記事でわかること

・GoogleのAIモデル「Gemini 2.5 Pro IO edition」の実力と具体的な使い方
・日本語対応の音楽生成AIから研究者向けツール
・今週登場した12の最新AIツール総まとめ
・各AIツールの無料プラン対応状況と登録方法の詳細手順
・AI業界の最新動向と各社の戦略変更による今後の展望
・Google陣営の最新AI進化がコード開発を革新する

Googleは5月6日に「Gemini 2.5 Pro IO edition」のプレビュー版を公開しました。このモデルはコーディング能力が大幅に強化され、マルチモーダル推論機能が強化されています。

一つのプロンプトでより機能豊富なウェブアプリやゲームを構築できるようになり、AIモデルのベンチマーク「チャットボットアリーナ」では総合を含む主要カテゴリーで1位を獲得しました。

特にWebアリーナではコーディングに強いとされるAnthropicの「Claude 3.7 Sonnet」を抜いて1位になっている点が注目です。

使い方は簡単で、GoogleのAIプラットフォーム「Google AIST」にアクセスし、モデル選択部分で「Gemini 2.5 Proプレビュー056」を選択するだけです。また、GoogleのAIチャット「Gemini」にも実装され、コーディングをサポートする「キャンバス」機能を使ってWebアプリを構築できるとのことですが、この記事執筆時点では表示モデル名がまだ「2.5 Proエクスペリメンタル」になっています。

さらにGoogleは4月30日、AIチャット「Gemini」に画像編集機能を導入すると発表しました。これは過去にGoogle AISTに搭載されていた機能で、画像をアップロードしてその画像を編集できます。ChatGPTに実装された画像編集機能「DALL-E Image Generation」のような機能です。具体的な使い方としては、Geminiにログインしてチャットに画像をアップロードし、画像の編集を依頼すると画像を編集してくれます。既存の画像に新しい要素を追加したり、スタイルを変更したり、特定の部分を消したりできる機能です。

Geminiの公式Xによると、この機能はGeminiに搭載されているAIモデル「2.0 Flash」「2.5 Pro」「2.5 Flash」で利用可能で、利用制限はあるものの無料プランのユーザーにも展開される予定です。また、画像編集機能の実装とほぼ同タイミングで、Geminiに一度に10個のファイルをアップロードできる機能も実装されました。この機能は無料ユーザーも利用可能で、GeminiのWebブラウザー版とiOSアプリ版での実装が確認されています。

クリエイティブを加速する最新AIツール


AI企業のAce StudioとStepping Stoneが共同開発した「エースステップ」は、歌詞と楽曲のイメージをテキスト入力するとボーカル入りの楽曲を生成できるオープンソースの楽曲生成AIツールです。日本語や英語など19言語をサポートしており、インストゥルメンタル曲も生成可能で、生成した楽曲を延長する機能なども実装されています。

「エースステップ」のソースコードはGitHubで、モデルデータと無料のデモはHugging Faceで提供されています。デモでは「タグス」の部分に作りたい楽曲のイメージをテキスト入力し、「リリックス」の部分に歌詞を入力して「ジェネレート」ボタンを押すとボーカル楽曲を生成できます。試してみると日本語の歌詞でもしっかりと歌ってくれる品質の高さに驚きます。

研究者のための強力なツールも登場しました。AI科学研究機関である「フューチャーハウス」は、研究者向けのAIツールとして4つの分析ツールを公開しました。文献検索に対応した「クロー」、長文レポートの作成に対応した「ファルコン」、特定分野の研究に対応した「アウル」、科学実験の計画支援に使える「フェニックス」です。

これらのツールは、フューチャーハウスの公式サイトにアクセスし、ページ右上にある「プラットフォーム」ボタンを押してGoogleアカウントなどでログインすれば無料で使えます。

ログイン後はチャット経由で4つのツールを利用可能で、使用言語は基本英語ですが「日本語で出力してください」と依頼すると結果を日本語で出力してくれる点が便利です。

Microsoftも小型言語モデル「Phi-3リリーズシリーズ」を4月30日に公開しました。「Phi-3リリーズ」「Phi-3リリーズプロ」「Phi-3ミニリーズ」の3モデルが存在し、最上位モデルの「Phi-3リリーズプロ」は数学や科学系の主要ベンチマークでOpenAIの推論モデル「o1-mini」を超えるスコアを出しています。

モデルデータはHugging Faceで提供されており、近日中にMicrosoftのAIプラットフォーム「Azure AI Foundry」に導入される予定です。なお、Hugging FaceにはPhi-3プロの無料デモが用意されていて、アクセスするとフォームを使ってチャットできます。

画像編集の分野でもアリババの画像・動画生成AIツール「1」に画像とエフェクトを組み合わせてエフェクト動画を作れる機能が実装されました。

画像内のオブジェクトが回転したり飛んだり風船になって膨らんだりと6パターンのエフェクトが用意されており、エフェクト機能に関しては、ログイン後の画面左側にある「AIビデオズFX」を押した先の画面で利用可能です。画像をアップロード後に「エフェクト」の部分でエフェクトを選び、「ジェネレート」ボタンを押せばエフェクト動画が生成され、作成した動画はダウンロードできます。

AIキャラクターとのコミュニケーションも進化しています。AIビデオ基盤モデルを開発する「レモンスライス」は、1枚のキャラクター画像をアップロードして性格などの情報を登録すると、そのキャラクターと英語でビデオチャットできるAIツール「レモンスライスライブ」を公開しました。

レモンスライスの公式サイトの右上にある「サイン」ボタンを押し、Googleアカウントなどを使ってログインするとお試しで利用可能です。

ログイン後の画面上部にある「ライブプラス」ボタンを押して出てきたポップアップ画面でキャラの名前を入力し、画像をアップロード後に「ネクスト」ボタンを押し、ボイスを選択後に「ネクスト」ボタンを押し、性格を入力して「サブミット」ボタンを押すと、ページのメイン部分で設定したキャラクターと英語でリアルタイムにビデオチャットできます。

XAIのAIチャット「Grok」には、生成した文章をPDFファイルに変換できる機能が実装されました。この機能は無料版のGrokでも利用可能で、Webブラウザー版のGrokで動作します。Grokの公式ページにアクセスし、ページの右上にある「サイン」ボタンを押し、XやGoogleアカウントなどでログインすれば無料でも利用可能です。

ログイン後に表示されるフォームでテキスト指示によりチャットの内容をPDF化することができ、作成したPDFファイルはダウンロードできます。

画像生成AIツール「Midjourney」にも新機能「オムニファレンス」が実装されました。この機能は、参考画像内に表示されている人物や特定のオブジェクトをテキストの指示で生成画像内に登場させることができるものです。画像を参考にしながら新しい画像を作る際に、どれだけその参考画像に似せるかをパラメーターで調整できる点が特徴で、最新の「Midjourney V7」モデルでも使えます。

ただし、Midjourneyには現在無料プランはなく、利用するにはサブスクリプションプランの登録が必須となっています。

AI大手の戦略転換と最新モデルアップデート


GoogleのAIアシスタント「NotebookLM」にも新モデルが搭載されました。Googleは5月3日、NotebookLMに正式に最新のAIモデル「Gemini 2.5 Flash」を実装したと発表しました。Gemini 2.5 Flashは、Googleが4月にリリースした処理速度とコスト効率を重視しながらも高い推論能力を持ち、思考モードのオンオフなどを調整できるGoogleのハイブリッド推論モデルです。各種LLMベンチマークでDeepseekの推論モデル「R1」とほぼ同等のスコアを出しており、このモデルがNotebookLMに実装されたことで、特に複雑で段階を踏んだ推論が必要な質問に対してより包括的な回答が得られるようになるとされています。

OpenAIの方針転換も大きな話題になっています。OpenAIは4月下旬に行ったChatGPTに実装されているAIモデル「GPT-4」の最新アップデート後、モデルが過度に同調的で余計に謝る問題が発生したことを認め、このアップデートを撤回しアップデート前の状態に戻したと発表しました。さらにOpenAIは今後の対策として、AIがどんな口調でどう振る舞うかまでを厳しくチェックし、ABテストや自動スコアだけでなく実際に人が使って感じる違和感をもっと拾い上げ、ユーザーのリアルな声を聞きながら問題が出たら素早く修正する体制を構築すると宣言しています。

さらにOpenAIは5月6日に同社のブログを更新し、2024年12月に発表した非営利組織から営利企業に経営主体を移す計画を取りやめ、今後もOpenAIは非営利組織によって監督管理されることになると発表しました。この計画に関しては、OpenAIの共同創業者のイーロン・マスク氏がOpenAIの営利化に反発してOpenAIを相手に訴訟を起こしたり、AI研究の第一人者であるジェフリー・ヒントン氏がOpenAIの営利化に反対する表明をするなど、各所からの批判が高まっていました。

GoogleはAIモデルでゲームをクリアする実験も成功させました。Googleは配信プラットフォーム「Twitch」で同社の最新AIモデル「Gemini 2.5 Pro」を使ってゲーム「ポケモン青」を攻略する様子を配信していましたが、5月3日にゲーム内の目的をすべて達成しゲームをクリアしたと発表しました。最近はAI企業がAIモデルを使ってゲームの攻略を行う事例が増えており、AIモデルを使ったゲームの攻略は今後AIモデルの能力を図る指標になりそうです。

AppleとAnthropicの協業も注目を集めています。テクノロジー系メディア「The Verge」によると、AppleはAnthropicと協力し、Appleの開発ツール「Xcode」内で動作するAI搭載のコーディングツールを開発中だとのことです。この新しいツールはAnthropicの大規模言語モデル「Claude」を使ってAIチャット経由でコードの作成、編集、テストが行えるようになるとされています。なお、このコーディングツールの実装されたXcodeはApple社内で段階的に展開されていますが、一般公開は未定だということです。

AI業界の裏側と規制


AIベンチマーク「チャットボットアリーナ」に不正疑惑が浮上しました。カリフォルニア大学バークレー校、スタンフォード大学、カーネギーメロン大学などが共同で発表した研究によると、人気のAIモデルベンチマーク「チャットボットアリーナ」を運営する「LMアリーナ」が一部のAI企業に対してベンチマークで有利なスコアを獲得できるよう支援していたとされています。チャットボットアリーナは2つの異なるAIモデルの回答を並べて表示し、ユーザーに優れた方を選んでもらうバトル形式で機能するベンチマークです。ただし、LMアリーナ側はこの研究に異議を唱えています。

Googleは新たな収益源の開拓も進めています。ブルームバーグによると、GoogleがAIチャットとの対話の中に「Google AdSense」広告を掲載し始めているとのことです。オンライン検索市場ではOpenAIのChatGPTやPerplexityなどのAIを活用した競合プラットフォームが台頭しているため、Googleの親会社Alphabetは新たな収益源としてAIチャットボットへの広告掲載を検討していると見られています。

半導体業界でも動きがあります。ロイターによると、NVIDIAのジェンセン・フアンCEOは米国のトランプ政権に対し、AI技術に関する輸出規制の改定を求めているとのことです。現行のAI用最先端半導体の段階的な輸出規制はバイデン政権で打ち出され、5月15日に発効予定のもので、米国内および友好国内に最先端技術をとどめることを目的として、NVIDIAなどのAI用半導体の輸出量を国ごとに段階的に制限するものです。新政権による規制の見直しがどう進むかは業界全体に大きな影響を与えそうです。

まとめ


今週のAI業界は、Googleの「Gemini 2.5 Pro IO edition」の公開から各社の新機能実装、OpenAIの方針転換まで、目が離せない動きが続いています。

Googleの最新AIモデルはコーディング能力が飛躍的に向上し、Webアプリ開発を大きく変革する可能性を秘めています。

音楽生成ツール「エースステップ」は日本語対応の高品質なボーカル曲を生成でき、研究者向けAIツール「フューチャーハウス」は学術研究を加速させます。

Midjourneyの「オムニファレンス」機能やGrokのPDF生成機能など、既存サービスの機能強化も続々と発表されています。

OpenAIのGPT-4アップデート撤回や非営利計画断念は、AI開発における品質維持と経営方針の難しさをがあるそうですね~

AIチャットボットへの広告掲載開始やAI輸出規制の見直し要求など、ビジネス面での動きも活発化しています。

僕自身も最新AIツールを日々検証し続けていますが、この1週間だけでも想像以上のスピードで進化していることを実感しています。僕の以下の記事で学べることも多数なのでぜひ拝見してもらえたら幸いです。




サービス数40万件のスキルマーケット、あなたにぴったりのサービスを探す ココナラコンテンツマーケット ノウハウ記事・テンプレート・デザイン素材はこちら