正式なドキュメントは英語版であり、この日本語訳はAI支援翻訳により作成された参考用のものです。日本語訳の一部の内容は人間によるレビューがまだ行われていないため、翻訳のタイミングにより英語版との間に差異が生じることがあります。最新かつ正確な情報については、英語版をご参照ください。

Kubernetes executorのトラブルシューティング

Kubernetes executorの使用時に発生する一般的なエラーを以下に示します。

Job failed (system failure): timed out waiting for pod to start

クラスターがpoll_timeoutで定義されたタイムアウトになる前にビルドポッドをスケジュールできない場合、ビルドポッドはエラーを返します。Kubernetesスケジューラは、それを削除できる必要があります。

このイシューを修正するには、config.tomlファイルのpoll_timeout値を大きくします。

context deadline exceeded

ジョブログのcontext deadline exceededエラーは通常、Kubernetes APIクライアントが特定のクラスターAPIリクエストでタイムアウトになったことを示しています。

兆候がないか、kube-apiserverクラスターコンポーネントのメトリクスをチェックします:

  • 応答レイテンシーの増加。
  • ポッド、シークレット、ConfigMap、その他のコア(v1)リソースに対する一般的な作成または削除操作のエラー率。

kube-apiserver操作からのタイムアウト駆動型エラーのログは、次のように表示される場合があります:

Job failed (system failure): prepare environment: context deadline exceeded
Job failed (system failure): prepare environment: setting up build pod: context deadline exceeded

場合によっては、kube-apiserverエラー応答は、そのサブコンポーネントの障害(Kubernetesクラスターのetcdserverなど)に関する追加の詳細を提供する場合があります:

Job failed (system failure): prepare environment: etcdserver: request timed out
Job failed (system failure): prepare environment: etcdserver: leader changed
Job failed (system failure): prepare environment: Internal error occurred: resource quota evaluates timeout

これらのkube-apiserverサービス障害は、ビルドポッドの作成中、および完了後のクリーンアップ試行中に発生する可能性があります:

Error cleaning up secrets: etcdserver: request timed out
Error cleaning up secrets: etcdserver: leader changed

Error cleaning up pod: etcdserver: request timed out, possibly due to previous leader failure
Error cleaning up pod: etcdserver: request timed out
Error cleaning up pod: context deadline exceeded

Dial tcp xxx.xx.x.x:xxx: i/o timeout

これはKubernetesのエラーで、通常、RunnerマネージャーからKubernetes APIサーバーに到達できないことを示します。この問題を解決するには:

  • ネットワークセキュリティポリシーを使用する場合は、通常、ポート443またはポート6443、あるいはその両方で、Kubernetes APIへのアクセスを許可してください。
  • Kubernetes APIが実行されていることを確認してください。

Kubernetes APIとの通信を試みるときに接続が拒否されました

GitLab RunnerがKubernetes APIにリクエストを送信して失敗した場合、kube-apiserverが過負荷状態で、APIリクエストを受け付けられない、または処理できないことが原因である可能性があります。

Error cleaning up podJob failed (system failure): prepare environment: waiting for pod running

Kubernetesがジョブポッドをタイムリーにスケジュールできない場合、次のエラーが発生します。GitLab Runnerはポッドの準備ができるのを待ちますが、失敗するとポッドのクリーンアップを試みますが、これも失敗する可能性があります。

Error: Error cleaning up pod: Delete "https://xx.xx.xx.x:443/api/v1/namespaces/gitlab-runner/runner-0001": dial tcp xx.xx.xx.x:443 connect: connection refused

Error: Job failed (system failure): prepare environment: waiting for pod running: Get "https://xx.xx.xx.x:443/api/v1/namespaces/gitlab-runner/runner-0001": dial tcp xx.xx.xx.x:443 connect: connection refused

トラブルシューティングを行うには、Kubernetesのプライマリノードと、kube-apiserverインスタンスを実行するすべてのノードを確認してください。クラスター上でスケールアップしたいターゲットポッド数を管理するために必要なすべてのリソースがそれらに備わっていることを確認してください。

GitLab RunnerがポッドがReadyステータスに達するまで待機する時間を変更するには、poll_timeout設定を使用します。

ポッドがどのようにスケジュールされるか、または時間どおりにスケジュールされない理由をよりよく理解するには、Kubernetesスケジューラについてお読みください

request did not complete within requested timeout

ビルドポッドの作成中に観測されたメッセージrequest did not complete within requested timeoutは、Kubernetesクラスターで構成されたアドミッションコントロールWebhookがタイムアウトしていることを示します。

アドミッションコントロールWebhookは、スコープが設定されているすべてのAPIリクエストに対するクラスターレベルの管理制御インターセプトであり、時間内に実行されない場合、障害を引き起こす可能性があります。

アドミッションコントロールWebhookは、傍受するAPIリクエストとネームスペースネームスペースソースをきめ細かく制御できるフィルターをサポートしています。GitLab RunnerからのKubernetes API呼び出しがアドミッションコントロールWebhookを通過する必要がない場合は、GitLab Runnerネームスペースを無視するようにWebhookのセレクター/フィルターの構成を変更するか、GitLab Runner Helmチャートvalues.yamlpodAnnotationsまたはpodLabelsを構成して、GitLab Runnerポッドに除外ラベル/注釈を適用できます。

たとえば、DataDogアドミッションコントロールWebhookがGitLab Runnerマネージャーポッドによって行われたAPIリクエストを傍受しないようにするには、次を追加できます:

podLabels:
  admission.datadoghq.com/enabled: false

KubernetesクラスターのアドミッションコントロールWebhookを一覧表示するには、次を実行します:

kubectl get validatingwebhookconfiguration -o yaml
kubectl get mutatingwebhookconfiguration -o yaml

アドミッションコントロールWebhookがタイムアウトすると、次の形式のログが確認できます:

Job failed (system failure): prepare environment: Timeout: request did not complete within requested timeout
Job failed (system failure): prepare environment: setting up credentials: Timeout: request did not complete within requested timeout

アドミッションコントロールWebhookからの障害は、代わりに次のように表示される場合があります:

Job failed (system failure): prepare environment: setting up credentials: Internal error occurred: failed calling webhook "example.webhook.service"

エラーCould not resolve host: example.com

ヘルパーイメージalpineフレーバーを使用している場合、AlpineのmuslのDNSリゾルバーに関連するDNSイシューが発生する可能性があります。エラーは次のように表示される場合があります:

  • fatal: unable to access 'https://gitlab-ci-token:token@example.com/repo/proj.git/': Could not resolve host: example.com

このイシューを解決するには、helper_image_flavor = "ubuntu"オプションを使用します。

docker: Cannot connect to the Docker daemon at tcp://docker:2375. Is the docker daemon running?

このエラーは、Docker-in-Dockerを使用している場合に、DINDサービスが完全に起動する前にアクセスしようとすると発生する可能性があります。詳細については、このイシューを参照してください。

curl: (35) OpenSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443

このエラーは、Docker-in-Dockerを使用している場合に、DINDの最大転送ユニット(MTU)がKubernetesオーバーレイネットワークよりも大きい場合に発生する可能性があります。DINDはデフォルトのMTU 1500を使用しますが、これはデフォルトのオーバーレイネットワーク全体をルーティングするには大きすぎます。DIND MTUは、サービス定義内で変更できます:

services:
  - name: docker:dind
    command: ["--mtu=1450"]

MountVolume.SetUp failed for volume "kube-api-access-xxxxx" : chown is not supported by windows

CI/CDジョブを実行すると、次のようなエラーが発生する可能性があります:

MountVolume.SetUp failed for volume "kube-api-access-xxxxx" : chown c:\var\lib\kubelet\pods\xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx\volumes\kubernetes.io~projected\kube-api-access-xxxxx\..2022_07_07_20_52_19.102630072\token: not supported by windows

このイシューは、ノードセレクターを使用して、異なるオペレーティングシステムとアーキテクチャを持つノードでビルドを実行する場合に発生します。

このイシューを修正するには、Runnerマネージャーポッドが常にLinuxノードでスケジュールされるようにnodeSelectorを構成します。たとえば、values.yamlファイルには、次のものが含まれている必要があります:

nodeSelector:
  kubernetes.io/os: linux

ビルドポッドにRunner IAMロールではなく、ワーカーノードのIAMロールが割り当てられています

このイシューは、ワーカーノードのIAMロールに正しいロールを引き受ける権限がない場合に発生します。これを修正するには、sts:AssumeRole権限をワーカーノードのIAMロールの信頼関係に追加します:

{
    "Effect": "Allow",
    "Principal": {
        "AWS": "arn:aws:iam::<AWS_ACCOUNT_NUMBER>:role/<IAM_ROLE_NAME>"
    },
    "Action": "sts:AssumeRole"
}

エラー: pull_policy ([Always]) defined in GitLab pipeline config is not one of the allowed_pull_policies

このイシューは、.gitlab-ci.ymlpull_policyを指定したが、Runnerの構成ファイルに構成されたポリシーがない場合に発生します。エラーは次のように表示される場合があります:

  • Preparation failed: invalid pull policy for image 'image-name:latest': pull_policy ([Always]) defined in GitLab pipeline config is not one of the allowed_pull_policies ([])

このイシューを修正するには、Dockerプルポリシーの制限に従って、構成にallowed_pull_policiesを追加します。

バックグラウンドプロセスによりジョブがハングアップし、タイムアウトになります

ジョブの実行中に開始されたバックグラウンドプロセスは、ビルドジョブが終了するのを防ぐことができます。これを回避するには、次のことができます:

  • プロセスをダブルフォークします。例: command_to_run < /dev/null &> /dev/null &
  • ジョブスクリプトを終了する前にプロセスを強制終了します。

ジョブで生成されるファイルとフォルダーには、特定のUNIX所有権と権限があります。ファイルとフォルダーがアーカイブまたは抽出されると、UNIXの詳細が保持されます。ただし、ファイルとフォルダーは、ヘルパーイメージUSER構成と一致しない場合があります。

Creating cache ...ステップで権限関連のエラーが発生した場合は、次のことができます:

  • 解決策として、ソースデータが変更されているかどうかを調査します。たとえば、キャッシュされたファイルを作成するジョブスクリプトなどです。
  • 回避策として、一致するchownコマンドとchmodコマンドを追加します。 (before_/after_)script:ディレクティブへ。

初期化システムを備えたビルドコンテナ内の明らかに冗長なシェルプロセス

プロセスツリーには、次のいずれかの場合にシェルプロセスが含まれる場合があります:

  • FF_USE_LEGACY_KUBERNETES_EXECUTION_STRATEGYfalseで、FF_USE_DUMB_INIT_WITH_KUBERNETES_EXECUTORtrueの場合。
  • ビルドイメージのENTRYPOINTは、初期化システム(tini-initdumb-initなど)です。
UID    PID   PPID  C STIME TTY          TIME CMD
root     1      0  0 21:58 ?        00:00:00 /scripts-37474587-5556589047/dumb-init -- sh -c if [ -x /usr/local/bin/bash ]; then .exec /usr/local/bin/bash  elif [ -x /usr/bin/bash ]; then .exec /usr/bin/bash  elif [ -x /bin/bash ]; then .exec /bin/bash  elif [ -x /usr/local/bin/sh ]; then .exec /usr/local/bin/sh  elif [ -x /usr/bin/sh ]; then .exec /usr/bin/sh  elif [ -x /bin/sh ]; then .exec /bin/sh  elif [ -x /busybox/sh ]; then .exec /busybox/sh  else .echo shell not found .exit 1 fi
root     7      1  0 21:58 ?        00:00:00 /usr/bin/bash <---------------- WHAT IS THIS???
root    26      1  0 21:58 ?        00:00:00 sh -c (/scripts-37474587-5556589047/detect_shell_script /scripts-37474587-5556589047/step_script 2>&1 | tee -a /logs-37474587-5556589047/output.log) &
root    27     26  0 21:58 ?        00:00:00  \_ /usr/bin/bash /scripts-37474587-5556589047/step_script
root    32     27  0 21:58 ?        00:00:00  |   \_ /usr/bin/bash /scripts-37474587-5556589047/step_script
root    37     32  0 21:58 ?        00:00:00  |       \_ ps -ef --forest
root    28     26  0 21:58 ?        00:00:00  \_ tee -a /logs-37474587-5556589047/output.log

このシェルプロセスは、shbash、またはbusyboxの可能性があり、PPIDが1、PIDが6または7の場合、初期化システムによって実行されるシェル検出スクリプトによって開始されるシェルです(上記のPID 1)。このプロセスは冗長ではなく、ビルドコンテナが初期化システムで実行されている場合の典型的な操作です。

Runnerポッドは、登録が成功したにもかかわらず、ジョブの結果を実行できず、タイムアウトになります

RunnerポッドはGitLabに登録すると、ジョブの実行を試みますが、実行されず、最終的にジョブはタイムアウトになります。次のエラーが報告されます:

There has been a timeout failure or the job got stuck. Check your timeout limits or try again.

This job does not have a trace.

この場合、Runnerは次のエラーを受け取る可能性があります。

HTTP 204 No content response code when connecting to the `jobs/request` API.

このイシューのトラブルシューティングを行うには、APIにPOSTリクエストを手動で送信して、TCP接続がハングしているかどうかを検証します。TCP接続がハングしている場合、RunnerはCIジョブペイロードをリクエストできない可能性があります。

failed to reserve container name (gcs-fuse-csi-driverが使用されている場合)

gcs-fuse-csi-driver csiドライバーは、initコンテナのボリュームのマウントをサポートしていません。これにより、このドライバーを使用するときにinitコンテナの起動が失敗する可能性があります。Kubernetes 1.28で導入された機能は、このバグを解決するために、ドライバーのプロジェクトでサポートされている必要があります。

エラー: only read-only root filesystem container is allowed

読み取り専用でマウントされたルートファイルシステム上でコンテナを実行するように強制するアドミッションコントロールポリシーを持つクラスターでは、このエラーは次の場合に表示される可能性があります:

  • GitLab Runnerをインストールします。
  • GitLab Runnerがビルドポッドをスケジュールしようとします。

これらのアドミッションコントロールポリシーは通常、GatekeeperKyvernoなどのアドミッションコントロールコントローラーによって適用されます。たとえば、読み取り専用のルートファイルシステム上でコンテナを実行するように強制するポリシーは、readOnlyRootFilesystem Gatekeeperポリシーです。

この問題を解決するには:

  • クラスターにデプロイされたすべてのポッドは、アドミッションコントロールコントローラーがポッドをブロックしないように、securityContext.readOnlyRootFilesystemをコンテナのtrueに設定して、アドミッションコントロールポリシーに準拠する必要があります。
  • ルートファイルシステムが読み取り専用でマウントされていても、コンテナは正常に実行され、ファイルシステムに書き込むことができる必要があります。

GitLab Runnerの場合

GitLab Runner HelmチャートでGitLab Runnerがデプロイされている場合、次のものを持つようにGitLabチャートの構成を更新する必要があります:

  • 適切なsecurityContext値:

    <...>
    securityContext:
      readOnlyRootFilesystem: true
    <...>
  • ポッドが書き込める場所にマウントされた書き込み可能なファイルシステム:

    <...>
    volumeMounts:
    - name: tmp-dir
      mountPath: /tmp
    volumes:
    - name: tmp-dir
      emptyDir:
        medium: "Memory"
    <...>

ビルドポッドの場合

ビルドポッドを読み取り専用のルートファイルシステムで実行するには、config.tomlで異なるコンテナのセキュリティコンテキストを構成します。ビルドポッドに渡されるGitLabチャート変数runners.configを設定できます:

runners:
  config: |
   <...>
   [[runners]]
     [runners.kubernetes.build_container_security_context]
       read_only_root_filesystem = true
     [runners.kubernetes.init_permissions_container_security_context]
       read_only_root_filesystem = true
     [runners.kubernetes.helper_container_security_context,omitempty]
       read_only_root_filesystem = true
     # This section is only needed if jobs with services are used
     [runners.kubernetes.service_container_security_context,omitempty]
       read_only_root_filesystem = true
   <...>

ビルドポッドとそのコンテナを読み取り専用ファイルシステム上で正常に実行するには、ビルドポッドが書き込める場所に書き込み可能なファイルシステムが必要です。少なくとも、これらの場所はビルドおよびホームディレクトリです。ビルドプロセスに、必要に応じて他の場所への書き込みアクセス権があることを確認してください。

一般に、ホームディレクトリは、プログラムが正常な実行に必要な構成やその他のデータを保存できるように、書き込み可能である必要があります。gitバイナリは、ホームディレクトリに書き込むことができると予想されるプログラムの一例です。

異なるコンテナイメージでのパスに関係なく、ホームディレクトリを書き込み可能にするには:

  1. (どのビルドイメージを使用しているかに関係なく)安定したパスにボリュームをマウントします。
  2. すべてのビルドに対して、環境変数$HOMEをグローバルに設定して、ホームディレクトリを変更します。

GitLabチャート変数runners.configの値を更新することにより、config.tomlでビルドポッドとそのコンテナを構成できます。

runners:
  config: |
   <...>
   [[runners]]
     environment = ["HOME=/build_home"]
     [[runners.kubernetes.volumes.empty_dir]]
       name = "repo"
       mount_path = "/builds"
     [[runners.kubernetes.volumes.empty_dir]]
       name = "build-home"
       mount_path = "/build_home"
   <...>

emptyDirの代わりに、他のサポートされているボリュームタイプを使用できます。明示的に処理され、ビルド成果物として保存されないすべてのファイルは通常一時的であるため、ほとんどの場合emptyDirが機能します。

AWS EKS: ポッドのクリーンアップエラー: 「Runner - **」が見つからない、またはステータスが「失敗」

Amazon EKSゾーンのリバランシング機能は、オートスケールグループ内のAvailability Zoneのバランスを取ります。この機能は、あるAvailability Zoneのノードを停止し、別のAvailability Zoneで作成する可能性があります。

Runnerジョブを停止して別のノードに移動することはできません。このエラーを解決するには、Runnerジョブに対してこの機能を無効にします。

Windowsコンテナではサポートされていないサービス

Windowsノードでサービスを使用しようとすると、次のエラーで失敗する可能性があります:

  • ERROR: Job failed (system failure): prepare environment: admission webhook "windows.common-webhooks.networking.gke.io" denied the request: spec.hostAliases: Invalid value: []v1.HostAlias{v1.HostAlias{IP:"127.0.0.1", Hostnames:[]string{"<your windows image>"}}}: Windows does not support this field.

Kubernetesランタイムによっては、エラーが報告されるか、黙って無視される可能性があります。たとえば、GKEはエラーを報告します。

サービスは、Kubernetes executorのhostAliasを使用して実装されます。これは、Windowsコンテナではサポートされていません。