Chat-GPTとは何か?
Chat-GPTは、OpenAIが開発したチャット型の生成AIです。膨大なデータを学習して、ユーザーが入力したプロンプトに応じて、質問への回答や、文書・画像の作成など、多岐にわたるタスクを実行できます。
2018年に、最初のバージョンであるGPT-1が登場し、2022年11月に一般リリースされ、利用者が爆発的に増加しました。2023年には、4つ目のモデルのGPT-4が登場しました。
OpenAI o1(Chat-GPT o1)について
2024年9月、OpenAI o1(Chat-GPT-o1)がリリースされました。Chat-GPTの新しいAIモデルで、複雑なタスクを実行するために、推論能力が強化されたモデルとなっています。(以下、この記事ではOpenAI o1と呼びます。)
これまでのChat-GPT 4oは、汎用的なタスクに向いてるモデルですが、一方でこのOpenAI o1は物理学・化学・生物学・数学、またプログラミングなどの複雑な分野に対応するためのモデルです。タスクを行うための思考に必要な負荷(トークン)も大きいため、「Chat-GPTの最新バージョンであり、すべての機能において代替できるモデル」ではなく、「高度な思考力が必要なタスクに最適なモデル」として、両者の良さをうまく活かして使い分けるのが良いでしょう。
向上した能力
数学、物理、プログラミングの性能の向上
OpenAI o1は、物理学・化学・生物学の分野で複雑な問題を解決できるように設計されています。各分野の高難易度の課題では、大学の博士課程の学生と同等のパフォーマンスを発揮しているとのことです。
公式情報によると、数学オリンピック出場者と同程度のレベルまで性能が向上したとのことです。数学オリンピックの予選試験の問題を各モデルに解かせた所、汎用モデルであるChat-GPT 4oの正解率は13%、一方ではOpenAI o1の正解率は83%と、非常に高いスコアが出ています。
参考:Introducing OpenAI o1 | OpenAI
https://openai.com/index/introducing-openai-o1-preview/
複雑タスクの能力向上
OpenAI o1は、プログラミングやデータ分析など、コードやデータベースを扱う業務や、複雑な思考が求められる事業計画書の作成などにおいて、汎用的なChat-GPT 4oよりも精度が向上しています。
人間に置き換えると、IQ120程度の知能を持っていると言われています。これまでのChat-GPT 4oやMetaのLlama、XのGrok、GoogleのGemini、OpneAI出身メンバーが開発したClaudeなどの生成AIの上位モデルがIQ80~90付近なことを考えると、飛躍的に思考能力があがったモデルといえます。
引用:Massive breakthrough in AI intelligence: OpenAI passes IQ 120
https://www.maximumtruth.org/p/massive-breakthrough-in-ai-intelligence
安全性の向上
OpenAI o1は、従来のモデルよりも安全性が向上しました。AIのセキュリティリスクとして、ユーザーがAIの倫理性などの制限を故意に回避し、本来は生成できない内容を出力させる「ジェイルブレイク」などが挙げられます。AIは倫理的な観点からルールを守って回答を生成する必要がありますが、その安全性テストでは、汎用モデルのChat-GPT 4oは100点中22点、一方ではOpenAI o1は84点と高い点数が出ています。
スペック・機能詳細
内部の思考プロセスが可視化されるように
これまでのChat-GPTでは、プロンプトへの回答だけがシンプルに提示されていましたが、OpenAI o1では、どのような思考過程でそのアウトプットに至ったのかも提示されるようになりました。
出力トークン数が3~6倍に
トークンとは、自然言語処理で用いられる単位で、簡単に表現するとテキスト量と似た意味です。OpenAI o1は出力トークン数が増加し、一回の回答で出力可能なテキストの量が3~6倍に増加しました。
画像やファイルのアップロード、Webブラウジングには未対応(2024年10月時点)
一方で、汎用的に活用できるChat-GPT 4oでは画像ファイルをアップロードして加工してもらうことが可能でしたが、OpenAI o1ではファイルのアップロードは未対応です。Webのブラウジングも未対応のため、リアルタイムな情報は回答が得にくいでしょう。
汎用タスクや文章生成などの安定性は低い
OpenAI o1はまだテスト版のため、一般的なタスクの安定性は汎用モデルであるChat-GPT 4oのほうが精度は高いようです。
API利用について
1000$以上を使用したTier5になるとAPI利用が可能
OpenAI o1でAPIを利用するにはTier5になる必要があります。Open AIには、ユーザーに5段階のランク(Tier)があり、1分/1日あたりのAPIの使用上限がTierごとに設けられています。5ドルの支払いでTier1になり、Tier5になるためには1000ドルの支払いをし、なおかつ30日以上経過する必要があります。
Chat-GPT 4oの約3倍の推論トークンが消費される
OpenAI o1は、推論トークンを使用してプロンプトの意味を考えながら理解して回答を生成します。推論トークンとは、AIの思考プロセスを記憶しておくためのトークンです。OpenAI o1は推論能力が強化されたモデルのため、より多くの推論トークンを消費します。基本的に、Chat-GPTのAPIの利用料金は消費したトークン数に応じて従量課金されるため、汎用モデルであるChat-GPT 4oなどよりも料金が高くなります。
APIの利用料金
- 入力料金:$15.00 / 1Mトークン
- 出力料金:$60.00 / 1Mトークン
スピードモデルの「o1-mini」(後述)はこれよりも低価格になるとのことです。
OpenAI o1は2種類:高性能の「o1-preview」と安価で高速な「o-1mini」
OpenAI o1には、o1-previewとo-1miniの2つのモードがあります。
o1-previewの特徴
- 複雑なタスクを幅広く処理できる
- 幅広い分野で高性能
- GPT- 4oの3倍の効率で処理を行う
- 利用制限:50回/週
後述するo1-miniよりも高性能である一方で、利用制限は厳しくなっています。
o1-miniの特徴
- 専門分野(STEM)の推論に特化some text
- STEMとは:Science(科学)、Technology(テクノロジー)、Engineering(エンジニアリング) and Mathematics(数学)の4領域
この分野は得意ですが、他の分野については0-1previewの方が向いているとされています。
- o-1previewより価格は80%安価
- o-1previewよりアウトプットのスピードが早い
- 利用制限:50回/日
o1-previewが週に50回に対して、o1-miniは1日で50回利用可能です。
OpenAI o1とChat-GPT 4oの使い分け
OpneAIによると、OpenAI o1モデルは汎用モデルであるChat-GPT 4oに置き換わるモデルではない、とのことです。双方に強み・弱みがあるため、得意分野を理解して使い分けていきましょう。
OpenAI o1preview/miniと、Chat-GPT 4oの業務ごとの比較
データ分析
サンプルとして、地域・年齢層・性別などのデモグラフィック情報と、インプレッション数・クリック数・コンバージョン数・コストなどのWebマーケティングにおける指標を、それぞれの月ごとにまとめている8列×482行のデータの分析と、テキストでのサマリー作成をしてもらいました。
汎用モデルであるChat-GPT 4oは項目ごとのデータをまとめるに留まりましたが、OpenAI o1のほうは項目別でパフォーマンスの高いセグメントの分析や、推奨事項などを提示してくました。より網羅的で深い内容を得られるようです。
汎用モデルであるChat-GPT 4o:一般的な内容をまとめてくれます。
OpenAI o1previewのアウトプット:一歩踏み込んだ分析をしてくれます。
速度では汎用モデルであるChat-GPT 4oのほうがやや早いものの、OpenAI o1でも大きな差はありません。
ただし、OpenAI o1はCSVファイルなどを直接アップロードできないため、今回はテキスト欄に直接データを貼りました。実用性の観点では、従来のChat-GPT 4oを使うシチュエーションもまだまだ多そうです。
文章作成
先程のOpenAI o1のデータ分析結果を元に、定例ミーティングや社内チャットで報告する文章を500文字以内で作成してもらいました。
汎用モデルであるChat-GPT 4oは長めの文章ながらインデントを使用して地域ごとにまとめる読みやすい形式である一方、OpenAI o1は短めの文章で、言葉の自然さもやや劣ります。
文章作成においては、これまでのChat-GPT 4oのほうが優れているようです。
Chat-GPT 4oの文章:地域別に結果を分け、文章量も多く、言葉も自然。
OpenAI o1preview:500文字以内というプロンプトに対して文字量・内容が少なく、日本語の表現もあまり豊富ではない。(もちろん問題がないレベルではある。)
複雑なタスク:事業計画の作成
これまでのデータを元に、それぞれで事業計画を作成してもらいました。
汎用モデルであるChat-GPT 4o、OpenAI o1previewともに前段としての状況分析と、具体的なアクション内容を提示してくれました。一方でChat-GPT 4oは、セグメントごとの分析では地域別のみの情報にとどまり、OpenAI o1previewは地域・年齢・月別での分析結果を提示してくれました。
また、具体的なアクションプランでは、OpenAI o1previewは短期計画(1年以内)と中期計画(1-3年)を提示してくれ、財務計画やリスクと対策の項目などの内容もより充実していました。このような複雑なタスクでは、OpenAI o1previewのほうが高いクオリティのアウトプットが期待できそうです。
汎用モデルであるChat-GPT 4oの事業計画:セグメントが網羅的ではなく、内容もやや薄い。
OpenAI o1previewの事業計画:四半期別のアクションプランの提示など、より実用的で具体的な内容に。
コード生成
汎用モデルであるChat-GPT 4oだと生成したコードを実行するとエラーになることが多いですが、OpenAI o1previewだとそのまま使えるコードを生成してくれるケースが多いようです。
参照する情報の違い
- OpenAI o1は2023年10月までの情報
- Chat-GPT 4oは2023年12月までの情報
2ヶ月しか差がないため、リアルタイム性ではほとんど差がありません。
OpenAI o1preview/miniと、Chat-GPT 4oの使い分け方まとめ
一般的な生成AIを活用するようなタスクの場合、従来までのChat-GPT 4oのほうがアウトプットの安定感があります。文章作成・添削などの言語を扱う内容についてはもちろん、そもそもOpenAI o1previewはファイルの読み込みはできず、画像生成やグラフの作成などはできないテキストベースのAIです。そのため、「なんでも一定品質でできるChat-GPT 4o」と「幅は狭いが高い思考力・分析力に特化したOpenAI o1preview」という使い分けが良さそうです。
今回のタスクにおける使い分けでは、データ分析や内容を考えるのはOpenAI o1preview、それを自然な表現にしたり、図表化したり、段落として整えるのは汎用モデルであるChat-GPT 4o、という方式だと良いアウトプットにつながっていきました。
Chat-GPT 4o:テキスト以外も扱えるのが強みで、データ分析した内容をグラフ化してくる。
今回はOpenAI o1previewを使っていきましたが、OpenAI o1miniはより軽量でスピードが出るモデルである一方、汎用性ではChat-GPT 4oに劣ります。そのため、専門分野(STEM)において、少ないリソースでたくさんの分析やアウトプットが必要な時には活用できますが、一般的な業務においては汎用的に活用できるChat-GPT 4oを使っていくのが良さそうです。
Chat-GPT 4o with Canvasについて
現在ベータ版として提供されているChat-GPT Canvasは、チャット画面のインターフェースがこれまでと違い、アウトプット部分が画面右側に、左側にはこれまでのユーザーとAIのチャット内容が出るようになっています。
右側の画面上のテキストを選択すると、その部分を編集でき、さらにチャットで指示・質問が可能です。文章作成において実用的で使いやすい機能になっています。
この機能は、OpenAI o1previewのチャット履歴を引き継いだ状態で、汎用的なChat-GPT 4oのモデルをCanvasで使いながら、より快適にアウトプットをブラッシュアップしていけるようです。筆者個人としても使い勝手の良さを感じています。
左側にチャット履歴、右側にアウトプットが表示される。
右側のアウトプット部分を選択すると、「ChatGPTに質問する」という追加のチャット欄や、文字の太字化などの編集フィールドが出てくる。
他の生成AIにも似た機能があり、Claudeではアーティファクトと呼ばれるチャットとアウトプットで画面が分割される機能があります。
まとめ:OpenAI o1(Chat-GPT o1)は高い思考力をもつモデル
OpenAI o1を汎用的なモデルであるChat-GPT 4oと比較しながら強み・弱み・特徴、使い分け方法について紹介していきました。OpenAI o1は、単純なバージョンアップではなく、より高精度な推論に特化したモデルです。そのため、汎用的なタスクではChat-GPT 4oを使い、より高度な思考力や推論能力が求められるタスクではOpenAI o1を使うという、それぞれの強みを生かした使い分けがおすすめです。まだテスト版であり、今後はより一層洗練されていくと予想されます。