GitLab Duoのデータの使用
GitLab Duoは生成AIを使用して、ベロシティを向上させ、生産性を高めます。各AIネイティブ機能は独立して動作し、他の機能の動作に依存しません。
GitLabは、特定のタスクに適した大規模言語モデル(LLM)を使用します。これらのLLMには、Anthropic Claude、Fireworks AIでホストされるCodestral、Google Vertex AIモデルが含まれています。
段階的な機能拡張
GitLab DuoのAIネイティブ機能は、DevSecOpsプラットフォーム全体の既存のGitLab機能を段階的に拡張するように設計されています。これらの機能は適切に機能低下するように設計されており、基盤となる機能のコア動作を妨げることはありません。各機能は、関連する機能サポートポリシーで定義された期待される動作に準拠します。
安定性とパフォーマンス
GitLab DuoのAIネイティブ機能は、さまざまな機能サポートレベルにあります。これらの機能の性質上、使用に対する高い需要により、機能のパフォーマンス低下や予期しないダウンタイムが発生する可能性があります。これらの機能は適切に低下するように構築されており、不正使用や誤用を軽減できる制御機能を備えています。GitLabは、独自の裁量により、いつでもすべてまたは一部のお客様に対してベータ版および実験的機能を無効にする場合があります。
データプライバシー
GitLab DuoのAIネイティブ機能は、生成AIモデルを搭載しています。すべての個人データの処理は、当社のプライバシーに関する声明に従って行われます。また、サブプロセッサページで、これらの機能を提供するために使用するサブプロセッサのリストを確認できます。
データ保持
以下は、GitLab AIモデルサブプロセッサの現在の保持期間を反映しています:
Fireworks AIプロンプトキャッシュを除き、GitLabはGitLab Duoリクエストに対して、Anthropic、Fireworks AI、およびGoogleとのゼロデイデータ保持を取り決めています。Anthropic、Fireworks AI(プロンプトキャッシュが無効の場合)、Googleは、出力が提供された直後にモデルの入力および出力データを破棄します。入力および出力データは、不正使用のモニタリングのために保存されません。モデルの入力と出力がモデルのトレーニングに使用されることはありません。
これらのすべてのAIプロバイダーは、GitLabとのデータ保護契約の下にあり、独自の法的義務を履行する場合を除き、顧客コンテンツを独自の目的で使用することを禁止されています。
GitLab Duo ChatとGitLab Duo Agent Platformは、以前に議論したトピックにすばやく戻れるように、それぞれチャット履歴とワークフロー履歴を保持します。GitLab Duo Chatインターフェースでチャットを削除できます。GitLabは、ユーザーがGitLabサポートチケットを通じて同意を提供しない限り、入力および出力データを保持しません。AI機能のログ記録の詳細をご覧ください。
Fireworks AIプロンプトキャッシュは、コード提案のレイテンシーを改善するために、デフォルトで有効になっています。詳細およびプロンプトキャッシュをオプトアウトする方法については、コード提案プロンプトキャッシュのドキュメントを参照してください。
トレーニングデータ
GitLabは生成AIモデルをトレーニングしません。
当社のAIサブプロセッサの詳細については、以下を参照してください:
- Google Vertex AIモデルAPIのデータガバナンス、責任あるAI、基盤モデルのトレーニングに関する詳細、GoogleのセキュアAIフレームワーク(SAIF)、およびリリースノート。
- Anthropic ClaudeのConstitution、トレーニングデータFAQ、モデル概要、およびデータの最新性に関する記事。
テレメトリ
GitLab Duoは、Snowplowコレクターを介して、集約または匿名化されたファーストパーティーの使用状況データを収集します。この使用状況データには、次のメトリクスが含まれます:
- ユニークユーザー数
- ユニークインスタンス数
- プロンプトとサフィックスの長さ
- 使用されたモデル
- ステータスコードレスポンス
- APIレスポンス時間
- コード提案はさらに以下を収集します:
- 提案で使用された言語(例: Python)
- 使用されているエディタ(例: VS Code)
- 表示、承認、拒否、またはエラーが発生した提案の数
- 提案が表示された時間の長さ
モデルの精度と品質
生成AIは、次のような予期しない結果を生成する可能性があります:
- 低品質
- 一貫性がない
- 不完全
- パイプラインの失敗を引き起こす
- 安全でないコード
- 攻撃的または配慮に欠ける
- 古い情報
GitLabは、生成されたコンテンツの品質を向上させるために、すべてのAIアシスト機能について、積極的にイテレーションを重ねています。プロンプトエンジニアリング、これらの機能を強化する新しいAI/MLモデルの評価、およびこれらの機能に直接組み込まれた新しいヒューリスティックを通じて品質を向上させています。
シークレット検出と墨消し
GitLab Duoには、Gitleaksを利用したシークレット検出と墨消し機能が含まれています。大規模な言語モデルで処理する前に、APIキー、認証情報、トークンなどの機密情報を自動的に検出してコードから削除します。このセキュリティ機能は、GDPRなどのデータ保護規制への準拠に特に重要です。
GitLab Duoを使用する際、コードは事前スキャンセキュリティワークフローを通過します:
- コードは、Gitleaksを使用して機密情報がスキャンされます。
- 検出されたシークレットは、リクエストから自動的に削除されます。
GitLab Duo Self-Hosted
GitLab Duo Self-Hostedとセルフホスト型AIゲートウェイを使用している場合、GitLabとデータを共有することはありません。
GitLab Self-Managed管理者は、Service Pingを使用して、使用状況の統計をGitLabに送信できます。これは、テレメトリデータとは異なります。