ChatGPTが劣化！？論文を簡単解説

記事

IT・テクノロジー

最近、ChatGPTが劣化したという論文が出たので簡単に解説します！個人的に使っていて全然気にならなかったのですが知って損することはないと思います。

はじめに

この論文は、2023年3月と6月のGPT-3.5とGPT-4の進化とパフォーマンスについて書いたものです。研究では、数学の問題解決から危険な質問への対応、コードの生成、視覚的推論の4つの異なるタスクで評価しています。

この表は、2023年3月版と2023年6月版のGPT-4とGPT-3.5の4つのタスクでの性能を表したのもです。この表を見て分かることは、GPT-4は一般的に、4つのタスク全てでGPT-3.5を上回っていることが分かる。

この表では、GPT-3.5とGPT-4の数学問題の解答能力を見ています。結果は驚くべきもので、GPT-4の精度は3月の97.6%から6月には2.4%に落ち込みました。一方、GPT-3.5の精度は7.4%から86.8%へと大きく上昇しました。

また、GPT-4の応答は短くなり、一方でGPT-3.5の応答は長くなりました。このような変化の原因の1つは、思考の連鎖という手法の影響が時間とともに変化した可能性があります。

たとえば、17077が素数であるかどうかを判断するという問題に対して、GPT-4の3月版は一連の思考の流れを守って正確な答えを出しました。

しかし、6月版ではこの思考の連鎖が機能せず、「No」とだけ答えてしまった。これに対してGPT-3.5は、3月版では先に「No」と答えてから思考ステップを実行するという誤った順序で合ったのに対して、6月版では推論ステップ先に行ってから正確な答えを出すという適切な順序に変化していました。

この結果は、大規模言語モデルの性能が時間とともに大きく変化する可能性があることを示していますね。

この表は、センシティブな質問に対する応答によって、社会的偏見や個人情報の漏洩、有害テキストの生成など、問題を引き起こす可能性があることを示した表になります。

この表から分かることは、GPT-3.5はAIM攻撃（これはユーザーがシステムを不適切な内容を生成させようとする試み）への対策が上手くいっていない。3月と6月の両方でその回答率が高かった。

それに比べ、GPT-4はとてもいい結果をだした。3月の78.0%から6月には31.0%へと、AIM攻撃に対する回答率が大きく下がりました。これから分かることはGPT-4が時間とともに安全な動きをし始めたと言えます。しかし、その根拠についてはまだ明確ではないと書かれています。

この表はコードを書く性能が3月と6月に比べると明らかに下がっていることがわかる。3月にGPT-4が生成したコードの約52.0％ｇ「直接実行可能」だったのに対し、6月になるとその割合が10.0%まで低下した。GPT-3.5でも同様なパターンが見られ、22.0%から2.0%へと大きく減少しました。

この減少は、生成されるコードに非コードのテキスト（例えば、コメントなど）が追加される傾向があったためと考えられているらしい。具体的には、コードの前後にトリプルオーク（'''）が追加されたり、コメントが増えたりすることで、生成されたコードがそのまま実行できなく成ってしまったそうです。

この表は、視覚的な推論のタスクのパフォーマンスにを表しています。このタスクでのGPT-4とGPT-3.5のパフォーマンスは、2023年の3月から6月の間に約2%向上しています。しかし、視覚的推論の問題の約90%については、3月と6月で出力が変わらなかったとのことです。

実際に、この論文を見て率直な僕の感覚は「へ～」って感じでした。なぜかというと自分が使っていてそこまで変わらないと感じているからです。

結局は、使う人の問題なんじゃないかなと思いました。使い手がいいと良い回答がでて、使い手が悪いと良い回答が返ってこない。なんか、プロンプトエンジニアは必要になってくるかもなと思いました。

最後まで見て頂きありがとうございました！