サポートされているGitLab Duoセルフホストモデルとハードウェア要件

プラン: Premium、Ultimate
アドオン: GitLab Duo Enterprise
提供形態: GitLab Self-Managed

GitLab 17.1でai_custom_modelフラグとともに導入されました。デフォルトでは無効になっています。
GitLab 17.6でGitLab Self-Managedで有効になりました。
GitLab 17.6以降、GitLab Duoアドオンが必須となりました。
GitLab 17.8で機能フラグai_custom_modelは削除されました。
GitLab 17.9で一般提供となりました。
GitLab 18.0で、Premiumに含まれるようになりました。

GitLab Duo Self-Hostedは、お好みのサービスプラットフォームを介して、Mistral、Meta、Anthropic、OpenAIの業界をリードするモデルとのインテグレーションをサポートしています。

これらのサポートされているモデルから、特定のパフォーマンスニーズとユースケースに合わせて選択できます。

GitLab 18.3以降では、独自の互換性のあるモデルを使用することもでき、公式にサポートされているオプション以外にも、追加の言語モデルを柔軟にスケールできます。

サポートされているモデル

GitLabでサポートされているモデルは、特定のモデルと機能の組み合わせに応じて、GitLab Duo機能に対してさまざまなレベルの機能を提供します。

完全な機能: モデルは、品質を損なうことなく機能を処理できる可能性があります。
部分的な機能: モデルは機能をサポートしていますが、妥協や制限がある可能性があります。
制限された機能: モデルは機能には適しておらず、品質が大幅に低下したり、パフォーマンスの問題が発生したりする可能性があります。機能が制限されているモデルは、その特定の機能に対するGitLabサポートを受けられません。

モデルファミリー	モデル	サポートされているプラットフォーム	コード補完	コード生成	GitLab Duo Chat	GitLab Duo Agent Platform
Mistral Codestral	Codestral 22B v0.1	vLLM	完全な機能	完全な機能	部分的な機能	制限された機能
Mistral	Mistral Small 24B Instruct 2506	vLLM	完全な機能	完全な機能	完全な機能	制限された機能
Claude 3	Claude 3.5 Sonnet	AWS Bedrock	完全な機能	完全な機能	完全な機能	部分的な機能
Claude 3	Claude 3.7 Sonnet	AWS Bedrock	完全な機能	完全な機能	完全な機能	部分的な機能
Claude 4	Claude 4 Sonnet	AWS Bedrock	完全な機能	完全な機能	完全な機能	完全な機能
GPT	GPT-4 Turbo	Azure OpenAI	完全な機能	完全な機能	部分的な機能	制限された機能
GPT	GPT-4o	Azure OpenAI	完全な機能	完全な機能	完全な機能	制限された機能
GPT	GPT-4o-mini	Azure OpenAI	完全な機能	完全な機能	部分的な機能	制限された機能
GPT	GPT-5)	Azure OpenAI	完全な機能	完全な機能	完全な機能	制限された機能
GPT	GPT-oss-120B	vLLM	完全な機能	完全な機能	完全な機能	制限された機能
GPT	GPT-oss-20B	vLLM	部分的な機能	部分的な機能	部分的な機能	制限された機能
Llama	Llama 3 8B	vLLM	部分的な機能	完全な機能	制限された機能	制限された機能
Llama	Llama 3.1 8B	vLLM	部分的な機能	完全な機能	部分的な機能	制限された機能
Llama	Llama 3 70B	vLLM	部分的な機能	完全な機能	制限された機能	制限された機能
Llama	Llama 3.1 70B	vLLM	完全な機能	完全な機能	完全な機能	制限された機能
Llama	Llama 3.3 70B	vLLM	完全な機能	完全な機能	完全な機能	制限された機能

互換性のあるモデル

ステータス: ベータ

独自の互換性のあるモデルとプラットフォームをGitLab Duo機能で使用できます。サポートされているモデルファミリーに含まれていない互換性のあるモデルについては、一般的なモデルファミリーを使用してください。

互換性のあるモデルは、AI機能利用規約の顧客インテグレーションモデルの定義から除外するされます。互換性のあるモデルとプラットフォームは、OpenAI API仕様に準拠する必要があります。以前に実験的またはベータとしてマークされていたモデルとプラットフォームは、互換性のあるモデルと見なされるようになりました。

この機能はベータ版であるため、フィードバックを収集してインテグレーションを改善するにつれて変更される可能性があります:

GitLabは、選択したモデルまたはプラットフォームに固有の問題に対するテクニカルサポートを提供しません。
すべてのGitLab Duo機能が、すべての互換性のあるモデルで最適に動作することが保証されているわけではありません。
応答の品質、速度、および全体的なパフォーマンスは、モデルの選択によって大きく異なる場合があります。

モデルファミリー	モデル要件	サポートされているプラットフォーム
一般	OpenAI API仕様と互換性のあるモデル	OpenAI互換のAPIエンドポイントを提供するプラットフォーム
CodeGemma	CodeGemma 2b	vLLM
CodeGemma	CodeGemma 7b-it	vLLM
CodeGemma	CodeGemma 7b-code	vLLM
Code Llama	Code-Llama 13b	vLLM
DeepSeek Coder	DeepSeek Coder 33b Instruct	vLLM
DeepSeek Coder	DeepSeek Coder 33b Base	vLLM
Mistral	Mistral 7B-it v0.2	vLLM AWS Bedrock
Mistral	Mistral 7B-it v0.3 ¹	vLLM
Mistral	Mixtral 8x7B-it v0.1 ¹	vLLM 、AWS Bedrock
Mistral	Mixtral 8x22B-it v0.1 ¹	vLLM

Footnotes（脚注）:

このモデルのサポートはGitLab 18.5で削除されました。代わりにMistral Small 24B Instruct 2506を使用する必要があります。

GitLab AIベンダーモデル

ステータス: ベータ

この機能の利用可否は、機能フラグによって制御されます。詳細については、履歴を参照してください。

GitLab AIベンダーモデルは、GitLabがホストするAIゲートウェイインフラストラクチャとインテグレーションし、GitLabがキュレーションして利用できるようにしたAIモデルへのアクセスを提供します。独自のセルフホストモデルを使用する代わりに、特定のGitLab Duo機能にGitLab AIベンダーモデルを使用することを選択できます。

どの機能でGitLab AIベンダーモデルを使用するかを選択するには、GitLab AIベンダーモデルの設定を参照してください。

特定の機能で有効になっている場合:

GitLab AIベンダーモデルで設定されたこれらの機能へのすべてのリクエストは、セルフホストモデルAIゲートウェイではなく、GitLabがホストするAIゲートウェイを使用します。
AIログが有効になっている場合でも、GitLabがホストするAIゲートウェイに詳細なログは生成されません。これにより、機密情報の意図しない漏洩を防ぐことができます。

ハードウェア要件

次のハードウェア仕様は、オンプレミスでGitLab Duo Self-Hostedを実行するための最小要件です。要件は、モデルサイズと目的のユースケースによって大きく異なります:

基本システム要件

CPU:
- 最小: 8コア (16スレッド)
- 次の操作を行うことをおすすめします: 本番環境では16以上のコア
RAM（RAM）:
- 最小: 32 GB
- 次の操作を行うことをおすすめします: ほとんどのモデルで64GB
ストレージ:
- モデルウェイトとデータに十分な容量を持つソリッドステートドライブ

モデルサイズ別のGPU要件

モデルサイズ	最小GPU設定	必要な最小VRAM
7Bモデル (例: Mistral 7B)	1x NVIDIA A100 (40 GB)	35 GB
22Bモデル (例: Codestral 22B)	2x NVIDIA A100 (80 GB)	110 GB
Mixtral 8x7B	2x NVIDIA A100 (80 GB)	220 GB
Mixtral 8x22B	8x NVIDIA A100 (80 GB)	526 GB

Hugging Faceのメモリユーティリティを使用して、メモリ要件を確認します。

モデルサイズとGPU別の応答時間

小型マシン

a2-highgpu-2g (2x Nvidia A100 40 GB - 150 GB vRAM) または同等のもの:

モデル名	リクエスト数	リクエストごとの平均時間 (秒)	応答の平均トークン	リクエストごとの1秒あたりの平均トークン	リクエストの合計時間	合計TPS
Mistral-7B-Instruct-v0.3	1	7.09	717.0	101.19	7.09	101.17
Mistral-7B-Instruct-v0.3	10	8.41	764.2	90.35	13.70	557.80
Mistral-7B-Instruct-v0.3	100	13.97	693.23	49.17	20.81	3331.59

ミディアムマシン

a2-ultragpu-4g (4x Nvidia A100 40 GB - 340 GB vRAM) GCPまたは同等のマシン:

モデル名	リクエスト数	リクエストごとの平均時間 (秒)	応答の平均トークン	リクエストごとの1秒あたりの平均トークン	リクエストの合計時間	合計TPS
Mistral-7B-Instruct-v0.3	1	3.80	499.0	131.25	3.80	131.23
Mistral-7B-Instruct-v0.3	10	6.00	740.6	122.85	8.19	904.22
Mistral-7B-Instruct-v0.3	100	11.71	695.71	59.06	15.54	4477.34
Mixtral-8x7B-Instruct-v0.1	1	6.50	400.0	61.55	6.50	61.53
Mixtral-8x7B-Instruct-v0.1	10	16.58	768.9	40.33	32.56	236.13
Mixtral-8x7B-Instruct-v0.1	100	25.90	767.38	26.87	55.57	1380.68

大型マシン

a2-ultragpu-8g (8 x NVIDIA A100 80 GB - 1360 GB vRAM) GCPまたは同等のマシン:

モデル名	リクエスト数	リクエストごとの平均時間 (秒)	応答の平均トークン	リクエストごとの1秒あたりの平均トークン	リクエストの合計時間（秒）	合計TPS
Mistral-7B-Instruct-v0.3	1	3.23	479.0	148.41	3.22	148.36
Mistral-7B-Instruct-v0.3	10	4.95	678.3	135.98	6.85	989.11
Mistral-7B-Instruct-v0.3	100	10.14	713.27	69.63	13.96	5108.75
Mixtral-8x7B-Instruct-v0.1	1	6.08	709.0	116.69	6.07	116.64
Mixtral-8x7B-Instruct-v0.1	10	9.95	645.0	63.68	13.40	481.06
Mixtral-8x7B-Instruct-v0.1	100	13.83	585.01	41.80	20.38	2869.12
Mixtral-8x22B-Instruct-v0.1	1	14.39	828.0	57.56	14.38	57.55
Mixtral-8x22B-Instruct-v0.1	10	20.57	629.7	30.24	28.02	224.71
Mixtral-8x22B-Instruct-v0.1	100	27.58	592.49	21.34	36.80	1609.85

AIゲートウェイのハードウェア要件

AIゲートウェイのハードウェアに関する推奨事項については、AIゲートウェイのスケールに関する推奨事項を参照してください。