Kubeflow – Katib 소개

Katib 살펴보기

Katib는 Kubeflow 컴포넌트로서, 하이퍼 파라미터(Hyperparameter) 튜닝 및 신경망 아키텍처 탐색(Neural Architecture Search)을 위한 쿠버네티스 기반의 시스템입니다. Katib는 TensorFlow, PyTorch, Apache MXNet, XGBoost 등 다양한 머신러닝 프레임워크를 지원합니다.

Kubeflow의 컴포넌트인 Katib 시스템에 대해서 이해하고, 하이퍼 파라미터 튜닝하는 방법에 대해서 알아 보도록 하겠습니다. 예제에 사용한 Katib 버전은 0.8 입니다.

Katib의 개념

Katib에는 실험(Experiment), 제안(Suggestion), 시도(Trial) 및 작업(Job) 이라는 개념이 있습니다.

Experiment

Experiment 란 목표로 하는 대상 값을 찾기 위해서, 하이퍼 파라미터 값들을 찾는 일련의 탐색 작업을 의미합니다. Experiment에는 다음과 같은 구성 요소가 포함되어 있습니다

  • 목표 (Objective) : 하이퍼 파라미터 튜닝 작업 통해서, 이루고자 하는 목표를 정의해야 합니다. 예를 든다면, 모델의 정확성(accuracy)의 최대값을 0.91 로 목표로 한다고 정의할 수 있습니다
  • 탐색 범위 (Search Space) : 하이퍼 파라미터 튜닝 작업시 사용해야 할 모든 하이퍼 파라미터 값과 하이퍼 파라미터의 제약 조건을 정의해야 합니다. 예를 든다면, Learning rate는 0.1부터 0.5까지의 값을 사용하고, optimizer는 sgd와 adam을 사용한다고 정의할 수 있습니다.
  • 탐색 알고리즘 (Search Algorithm) : 하이퍼 파라미터 튜닝 작업시 사용할 알고리즘을 정의해야 합니다. Random Search, Grid Search, Bayesian Optimization 등 다용한 알고리즘을 사용할 수 있습니다.

Katib를 사용해서 최적의 하이퍼 파라미터를 찾으려면, Experiment 라는 사용자 리소스를 생성하면 됩니다.

Suggestion

Katib는 각 Experiment 사용자 리소스 마다 하나의 Suggestion 사용자 리소스를 생성합니다. Suggestion 은 탐색 알고리즘이 제안한 하이퍼 파라미터 값들의 세트를 가지고 있습니다. Katib 는 제안된 하이퍼 파라미터 값들을 세트별로 평가하기 위한 Trial을 작성합니다.

Trial

Trial은 제안된 하이퍼 파리미터 값들을 평가하기 위한 하나의 작업을 의미하는 사용자 리소스입니다. 제안된 매개 변수 값들을 Woker Job 인스턴스 할당해서 실행합니다.

Experiment 는 여러 번의 Trial을 수행합니다. Experiment 는 목표나 설정한 최대 시도 횟수에 도달 할 때까지 Trial 을 계속 실행합니다.

Worker Job

Worker Job은 Trial을 평가하고 목표 값을 계산하는 프로세스를 의미합니다. 제안된 하이퍼 파라미터 값들을 넘겨 받아서 실제로 모델을 학습하게 됩니다.

다음은 사용 가능한 Worker Job의 유형입니다.

  • Kubernetes Job
  • Kubeflow TFJob (분산 처리 지원)
  • Kubeflow PyTorchJob (분산 처리 지원)

Metrics Collector

하이퍼 파라미터 튜닝 작업 통해서, 목표로 하는 대상 값을 찾기 위해서는 대상 값을 수집하고 저장해야 합니다. Katib에서는 이러한 메트릭들을 저장하기 위해서 Metrics Collector를 사용합니다.

Job, TFJob, PytorchJob 등과 같은 실제 모델 학습을 진행하는 포드가 실행 될 때, 학습에 관련된 결과 값들을 수집하기 위해서 Metrics Collector가 포함된 Collector 컨테이너를 사이드카로 포드에 주입합니다. Collector 컨테이너는 메트릭 소스의 구문을 분석하여, Worker 컨테이너의 메트릭을 수집하고 Katib-manager의 katib-db 와 같은 영구 저장소에 메트릭을 저장합니다.

Katib에서 지원하고 있는 Metrics Collector는 다음과 같습니다.

  • StdOut : 운영 체제의 기본 출력인 StdOut으로 출력되는 메트릭을 수집합니다. 별도의 수집기를 정의하지 않으면 StdOut가 사용됩니다.
  • File : 지정한 파일을 이용해서 메트릭을 수집합니다. source 필드에 경로를 지정해야합니다.
  • TensorFlowEvent : 지정한 디렉토리에 저장된 tf.Event 를 이용해서 메트릭을 수집합니다. 현재는 텐서플로우 1 버전만 지원합니다. source 필드에 경로를 지정해야합니다.
  • Custom : 사용자가 정의한 메트릭 수집기를 사용합니다.
  • None : Katib의 메트릭 수집기를 사용하지 않을 때 사용합니다.

탐색 알고리즘

Katib에서 제공하는 탐색 알고리즘은 다음과 같습니다.

Hyperparameter Tuning

  • Grid Search (grid) : 그리드 탐색은 하이퍼 파라미터 최적화를 수행하는 전통적인 방법 중 하나로서, 하이퍼 파라미터 공간에서 수동으로 지정한 하위 집합을 모두 조합해서 전부 탐색하는 것을 말합니다. 이러한 작업은 학습 세트에 대한 교차 검증(cross-validation)이나 보류(held-out) 된 검증 세트에 대한 평가에 따라 진행됩니다. 균등한 공간의 시작점들로부터 시작해서, 이 점들의 목적 함수 값(objective functions)을 계산하여 최적의 조합을 선택하게 됩니다. 그리드 탐색은 모든 가능성에 대해 탐색을 수행하기 때문에, 중간 규모의 문제에 대해서도 탐색 프로세스를 매우 길게 만듭니다. 그래서 그리드 탐색은 만들어낼 수 있는 파라미터들의 탐색 조합이 적은 경우에만 유용하게 사용할 수 있습니다.
  • Random Search (random) : 무작위 탐색은 그리드 탐색의 대안으로서, 조합할 수 있는 파라미터의 수가 많을 때 사용하면 좋습니다. 무작위 탐색은 무작위로 파라미터를 선택하여 조합을 만들어냅니다. 하이퍼 파라미터 공간에서 수동으로 하위 집합을 지정할 필요가 없기 때문에 간단하게 적용 할 수 있습니다. 그렇기 때문에 무작위 탐색은 모든 가능성에 대한 탐색이 불가능할 때 사용하기 좋은 알고리즘입니다. Katib는 hyperopt 라는 최적화 프레임워크를 사용해서 무작위 탐색 알고리즘을 지원합니다.
  • Tree of Parzen Estimators (tpe) : Katib 는 hyperopt 를 사용해서 Tree of Parzen Estimators (TPE) 알고리즘을 지원합니다 . 이 방법은 “정방향 및 역방향 그라디언트 기반” 탐색을 제공합니다.
  • Hyperband (hyperbadn): 하이퍼밴드는 반복 알고리즘을 조정하는 비교적 새로운 방법으로서, 최적화 탐색 속도에 중점을 두었습니다. 리소스 할당을 최적화하여 평가 할 수 있는 조합의 수를 최대화 합니다. 그래서 빠르게 목적에 도달해서 해서 조기 중지(early stopping)에 이르게 하고 있습니다.
  • Bayesian Optimization (skopt-bayesian-optimization) : ‘베이지안 최적화’방법은 가우시안 프로세스 회귀를 사용하여 탐색 공간을 모델링합니다. 이 기법은 탐색 공간의 모든 지점에서 손실 함수의 추정치와 해당 추정치의 불확실성을 계산합니다. 즉, 현재 모델을 기반으로 유망한 하이퍼 파라미터 구성을 반복적으로 평가해서, 최적의 위치에 대한 정보를 나타내는 관측치를 수집하는 등의 확률적 추정 결과를 바탕으로 최적의 값을 찾습니다. 이 방법은 탐색 공간의 차원 수가 적은 경우에 적합합니다. 이 방법은 예상 손실과 불확실성을 모두 모델링하므로 탐색 알고리즘이 몇 단계로 수렴되므로 , 매개 변수 구성 평가를 완료하는 데 시간이 오래 걸릴 경우 사용하면 좋습니다. Katib는  Scikit-Optimize (skopt) 라는 라이브러리를 사용해서 베이지안 탐색을 지원합니다.

Neural Architecture Search

Katib 구성 요소

Katib는 다음과 같은 구성 요소로 이루어져 있습니다.

  • katib-ui : 하이퍼 파라미터 튜닝을 실행하고 관리하기 위한 사용자 인터페이스 (UI).
  • katib-controller : Katib 사용자 리소스를 제어하기 위한 쿠버네티스 컨트롤러.
  • katib-db-manager: DB 인터페이스인 Katib의 GRPC API 서버.
  • katib-mysql : Katib의 데이터를 저장하기 위한 MySql 데이터베이스.

Katib UI 접속하기

Katib 사용자 인터페이스를 사용하면, Experiment 을 제출하고 결과를 조회 해 볼 수 수 있습니다.

다음은 Kubeflow 에 있는 Katib UI 화면입니다.

Kubeflow 대시보드 화면의 왼쪽 메뉴에서 Katib를 클릭하면 접속할 수 있습니다.

다음 : Kubeflow – Katib 하이퍼 파라미터 튜닝

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다