ジェミニの紹介:

当社最大かつ最も強力な AI モデルとして宣伝されている Gemini は、これまでで最も柔軟なモデルであり、データセンターからモバイルデバイスに至るまであらゆるもので効率的に実行できます。その最先端の機能により、開発者や企業顧客が人工知能を構築および拡張する方法が大幅に強化されます。

Gemini 1.0 (最初のリリース) は、3 つの異なるサイズに最適化されています。

Gemini Ultra – 非常に複雑なタスクに適した、当社最大かつ最も機能的なモデル。
Gemini Pro – さまざまなタスクに対応する当社の最高のモデル。
Gemini Nano - 最も効率的なオンデバイスタスクモデル。

最先端のパフォーマンス

私たちは Gemini モデルを厳密にテストし、さまざまなタスクでのパフォーマンスを評価してきました。自然な画像、オーディオ、ビデオの理解から数学的推論に至るまで、Gemini Ultra のパフォーマンスは、大規模言語モデル (LLM) の研究開発で広く使用されている 32 の学術ベンチマークのうち 30 において、現在の最先端の結果を上回っています。

90.0% のスコアを誇る Gemini Ultra は、数学、物理学、歴史、法律、医学、倫理を含む 57 科目を組み合わせて知識と問題をテストする MMLU (Massive Multi-Task Language Understanding) において人間の専門家を超えた最初のモデルです。解決スキル。

私たちの新しい MMLU ベンチマーク手法により、Gemini はその推論力を利用して、難しい質問に答える前により慎重に考えることができ、その結果、第一印象のみを使用する場合よりも大幅な改善が得られます。

このグラフは、一般的なテキストベンチマークでの GPT-4 と比較した Gemini Ultra のパフォーマンスを示しています (API 数値は、報告された数値が欠落しているために計算されています)。

Gemini は、テキストやエンコーディングを含むさまざまなベンチマークで最先端のパフォーマンスを上回ります。

Gemini Ultra は、新しい MMMU ベンチマークでも 59.4% という最先端のスコアを達成しました。このベンチマークは、さまざまなドメインにまたがり、思慮深い推論を必要とするマルチモーダルタスクで構成されています。

私たちがテストした画像ベンチマークでは、Gemini Ultra は、さらなる処理のために画像からテキストを抽出するオブジェクト文字認識 (OCR) システムの助けを借りずに、以前の最先端モデルを上回りました。これらのベンチマークは、双子座の生来の多面性を強調し、双子座のより複雑な推論能力の初期の兆候を示しています。

詳細については、Gemini テクニカルレポートをご覧ください。

このグラフは、マルチモードベンチマークにおける Gemini Ultra のパフォーマンスを GPT-4V と比較して示しています。以前の SOTA モデルには、GPT-4V がサポートしていない機能がリストされています。

Gemini：ChatGPTを超える人工知能時代をリードする大型モデルが登場！ — Gemini は、さまざまなマルチモードベンチマークにわたって最先端のパフォーマンスを上回ります。

図からわかるように、Gemini は一連のマルチモードベンチマークで最先端のパフォーマンスを上回っています。

次世代の機能

これまで、マルチモーダルモデルを作成する標準的なアプローチでは、さまざまなモダリティに合わせて個別のコンポーネントをトレーニングし、それらの機能の一部を大まかに模倣するためにそれらをつなぎ合わせていました。これらのモデルは、画像の説明などの特定のタスクには優れている場合がありますが、より概念的で複雑な推論には苦労します。

私たちは、Gemini をネイティブにマルチモーダルに対応できるように設計し、最初からさまざまなモダリティに合わせて事前トレーニングしました。次に、追加のマルチモーダルデータを使用して微調整し、その有効性をさらに磨きます。これにより、Gemini はさまざまな入力をゼロからシームレスに理解し、推論することができ、既存のマルチモーダルモデルよりもはるかに優れており、その機能はほぼすべてのドメインで最先端です。

Gemini の機能について詳しく学び、その仕組みを理解してください。

複雑な推論

Gemini 1.0 の洗練されたマルチモーダル推論機能は、複雑な文字情報や視覚情報を理解するのに役立ちます。これにより、大量のデータから識別できない知識を発見する独自の能力が得られます。

情報を読み取り、フィルタリングし、理解することで何十万もの文書から洞察を抽出するその優れた能力は、科学から金融までの多くの分野でデジタルスピードで新たなブレークスルーを可能にするのに役立ちます。

双子座は新しい科学的洞察を開きます。

テキスト、画像、音声などを理解する
Gemini 1.0 は、テキスト、画像、音声などを同時に認識して理解できるようにトレーニングされているため、微妙な情報をよりよく理解し、複雑なトピックに関する質問に答えることができます。そのため、数学や物理学などの複雑な主題の推論を説明するのが特に得意になります。

ジェミニは数学的および物理的推論を説明します。

高度なコーディング

Gemini の最初のバージョンは、Python、Java、C++、Go などの世界で最も人気のあるプログラミング言語を理解し、解釈し、高品質のコードを生成します。複数の言語を超えて機能し、複雑な情報を推論する能力により、世界をリードするコーディングベースのモデルの 1 つとなっています。

Gemini Ultra は、HumanEval (コーディングタスクのパフォーマンスを評価するための重要な業界標準) や Natural2Code (Web ベースの情報ではなく作成者が生成したソースを使用する、社内で保管されるデータセット) など、いくつかのコーディングベンチマークで優れたパフォーマンスを発揮します。

Gemini は、より高度なエンコードシステムのエンジンとしても使用できます。 2 年前、私たちは、プログラミングコンテストで競争力のあるパフォーマンスレベルを達成した初の人工知能コード生成システムである AlphaCode を立ち上げました。

Gemini の特殊バージョンを使用して、私たちは AlphaCode 2 を作成しました。これは、コーディングを超え、複雑な数学や理論的なコンピューターサイエンスが関与する競技プログラミングの問題の解決に優れた、より高度なコード生成システムです。

双子座はコーディングと競技プログラミングが得意です。

オリジナルの AlphaCode と同じプラットフォームで評価した場合、AlphaCode 2 は大幅な改善を示し、ほぼ 2 倍の問題数を解決しました。また、競争参加者の 85% を上回るパフォーマンスを示し、AlphaCode 2 の比率は 50% に近いと推定されています。プログラマーがコード例の特定のプロパティを定義して AlphaCode 2 を使用すると、パフォーマンスが向上します。

プログラマーが、問題を推論し、コード設計を提案し、実装を支援するためのコラボレーションツールとして強力な AI モデルをますます使用するようになり、アプリケーションをより迅速に出荷し、より良いサービスを設計できるようになることを嬉しく思います。

詳細については、AlphaCode 2 技術レポートをご覧ください。

より信頼性、拡張性、効率性が向上
Google では、Google 社内で設計されたテンソルプロセッシングユニット (TPU) v4 および v5e を使用しています。 AI 最適化されたインフラストラクチャ上での Gemini 1.0 の大規模なトレーニング。私たちはこれを、最も信頼性が高くスケーラブルなトレーニングモデルであると同時に、最も効率的なサービスモデルとなるように設計しました。

TPU では、Gemini は以前の、小型で非強力なモデルよりも大幅に高速に動作します。これらのカスタム設計の AI アクセラレータは Google AI 製品です

これらの製品の中核は、検索、YouTube、Gmail、Google マップ、Google Play、Android で何十億ものユーザーにサービスを提供していることです。また、世界中の企業が大規模な AI モデルをコスト効率よくトレーニングできるようになります。

本日、私たちは Cloud TPU v5p を発表します。これは、これまでで最も強力で効率的でスケーラブルな TPU システムであり、最先端の AI モデルのトレーニング用に特別に設計されています。この次世代 TPU は Gemini の開発を加速し、開発者や企業顧客が大規模な生成 AI モデルをより迅速にトレーニングできるように支援し、新しい製品と機能をより迅速に顧客に提供できるようにします。

責任と安全性を中心に構築

Google では、あらゆる活動において、大胆かつ責任ある人工知能の推進に取り組んでいます。 Google の AI 原則と製品の強力なセキュリティポリシーに基づいて、Gemini のマルチモーダル機能を考慮して新しい保護機能を追加しています。開発のあらゆる段階で、私たちは潜在的なリスクを考慮し、それらのテストと軽減に努めます。

Gemini は、バイアスや毒性を含め、これまでの Google AI モデルの中で最も包括的な安全性評価を行っています。私たちは、サイバー攻撃、説得、自律性などの潜在的なリスク領域に関する新しい調査を実施し、Google Research のクラス最高の敵対的テストテクノロジーを適用して、Gemini 導入前に重大なセキュリティ問題を特定できるようにしました。

内部評価方法の盲点を特定するために、当社はさまざまな外部専門家やパートナーと協力して、さまざまな問題についてモデルのストレステストを行っています。

Gemini トレーニングフェーズ中にコンテンツの安全性の問題を診断し、その出力がポリシーに準拠していることを確認するために、ネットワークから抽出されたさまざまな程度の毒性の 100,000 個のヒントのセットである Real Toxicity Tips などのベンチマークを使用します。アレン研究所。人工知能向け。この取り組みの詳細については、近日公開予定です。

危害を制限するために、私たちは暴力や否定的な固定概念を含むコンテンツを特定し、フラグを立て、管理するための専用の安全分類子を構築しました。強力なフィルターと組み合わせたこの多層アプローチは、Gemini をすべての人にとってより安全でより包括的なものにするように設計されています。さらに、事実性、基礎性、帰属、裏付けなど、モデルに対する既知の課題にも引き続き取り組んでいます。

責任と安全は常に当社のモデルの開発と展開の中核となります。これは共同で構築する必要がある長期的な取り組みであるため、私たちは MLCommons、フロンティアモデルフォーラムとその AI セキュリティファンド、および安全な人工知能フレームワーク (SAIF) を通じて業界やより広範なエコシステムと協力しています。公共および民間部門の AI システムに特有のセキュリティリスクの軽減に役立ちます。 Gemini の開発にあたり、私たちは世界中の研究者、政府、市民社会団体と協力し続けます。

ジェミニを世界へ行かせましょう

Gemini 1.0 は、さまざまな製品およびプラットフォームで利用できるようになりました。

Google 製品の中で Gemini Pro
私たちは Google 製品を通じて Gemini を何十億人もの人々に届けています。

今日から、Bard はより高度な推論、計画、理解などのために、Gemini Pro の微調整されたバージョンを使用します。これは、Bard の発売以来最大のアップグレードです。 170以上の国と地域で英語で利用可能となり、近い将来、さまざまなモードに拡張し、新しい言語と場所をサポートする予定です。

また、Gemini を Pixel に導入します。 Pixel 8 Pro は、Gemini Nano を搭載した最初のスマートフォンです。Gemini Nano は、レコーダーアプリの要約などの新機能をサポートし、WhatsApp から始まる Gboard のスマートリプライを起動し、来年にはさらに多くのメッセージングアプリが登場する予定です。

今後数か月間で、Gemini は検索、広告、Chrome、Duet AI など、さらに多くの製品やサービスに登場する予定です。

検索における Gemini の試験運用を開始しました。これにより、ユーザーの検索生成エクスペリエンス (SGE) が高速になり、40% の米国英語での待ち時間が短縮され、品質が向上しました。

ジェミニで構築する

12 月 13 日より、開発者と企業顧客は、Google AI Studio または Google Cloud Vertex AI の Gemini API を通じて Gemini Pro にアクセスできるようになります。

Google AI Studio は、API キーを使用してアプリケーションのプロトタイプを迅速に作成し、起動できる無料の Web ベースの開発者ツールです。フルマネージド AI プラットフォームが必要な場合、Vertex AI を使用すると、Gemini のカスタマイズが可能になり、包括的なデータ制御が可能になり、エンタープライズセキュリティ、セキュリティ、プライバシー、データガバナンスとコンプライアンスのための追加の Google Cloud 機能のメリットが得られます。

Android 開発者は、Pixel 8 Pro デバイス以降の Android 14 で利用可能な新しいシステム機能である AICore を通じて、最も効率的なオンデバイスタスクモデルである Gemini Nano を使用して構築することもできます。サインアップして AICore の早期プレビューを入手してください。

ジェミニがもうすぐ来ます

Gemini Ultra については、現在、信頼できる外部関係者によるレッドチームチェックを含む広範な信頼性とセキュリティのチェックを完了し、広く使用される前にヒューマンフィードバック (RLHF) に基づく微調整と強化学習を使用してモデルをさらに改良しています。

このプロセスの一環として、来年初めに開発者や企業顧客に展開する前に、初期の実験とフィードバックのために、一部の顧客、開発者、パートナー、セキュリティと責任の専門家が Gemini Ultra を利用できるようにします。

来年初めには、Gemini Ultra をはじめとする最高のモデルと機能へのアクセスを可能にする新しい最先端の AI エクスペリエンスである Bard Advanced も開始します。

双子座の時代: イノベーションの未来を拓く

これは人工知能の開発における重要なマイルストーンであり、Google にとって新しい時代の始まりであり、今後も迅速な革新を続け、責任を持ってモデルの機能を向上させていきます。

これまでのところ、Gemini は大きな進歩を遂げており、計画とメモリの進歩や、より良い応答を提供するためにより多くの情報を処理するためのコンテキストウィンドウの増加など、将来のバージョンでの機能のさらなる拡張に取り組んでいます。

私たちは、AI を活用した世界の驚くべき可能性に興奮しています。これは、創造性を高め、知識を拡大し、科学を進歩させ、世界中の何十億もの人々の生活と働き方を変革するイノベーションの未来です。

参考文献:

https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf

https://storage.googleapis.com/deepmind-media/ジェミニ/gemini_1_report.pdf

https://cloud.google.com/vertex-ai

https://deepmind.google/technologies/gemini/

元記事はChief Security Officerによるもので、転載の際はhttps://www.cncso.com/jp/google-gemini-ai-mega-model-surpasses-chatgpt-on-all-fronts.html。

Gemini：ChatGPTを超える人工知能時代をリードする大型モデルが登場！

ジェミニの紹介:

最先端のパフォーマンス

次世代の機能

複雑な推論

高度なコーディング

責任と安全性を中心に構築

ジェミニを世界へ行かせましょう

ジェミニで構築する

ジェミニがもうすぐ来ます

双子座の時代: イノベーションの未来を拓く

参考文献:

著者について

最高セキュリティ責任者

Gemini：ChatGPTを超える人工知能時代をリードする大型モデルが登場！

ジェミニの紹介:

最先端のパフォーマンス

次世代の機能

複雑な推論

高度なコーディング

責任と安全性を中心に構築

ジェミニを世界へ行かせましょう

ジェミニで構築する

ジェミニがもうすぐ来ます

双子座の時代: イノベーションの未来を拓く

参考文献:

著者について

最高セキュリティ責任者

関連する提案

生成 AI を使用して企業のサイバー脅威インテリジェンスの問題点を解決する新しいアプローチ

Chatgpt を使用した AsyncRAT マルウェア分析の実践

人工知能技術の予測：2024年の展望

データ セキュリティ: 生成 AI はセキュリティのリスクと課題にどのように対処しますか?

世界16か国が安全な人工知能システム開発のためのガイドラインを共同発表

悪意のある AI ツール FraudGPT がダークウェブで販売され、ネットワーク セキュリティの問題を引き起こす

データセキュリティ: 生成 AI はセキュリティのリスクと課題にどのように対処しますか?

悪意のある AI ツール FraudGPT がダークウェブで販売され、ネットワークセキュリティの問題を引き起こす