메인 콘텐츠로 건너뛰기

가격

가격은 Inference, 트레이닝, 저장소의 세 가지 컴포넌트로 구성됩니다. 구체적인 과금 요율은 가격 페이지에서 확인하세요.

Inference

Serverless RL Inference 요청에는 W&B Inference와 동일한 가격이 적용됩니다. 자세한 내용은 모델별 비용을 참조하세요. 크레딧 구매, 계정 등급, 사용량 상한에 대한 자세한 내용은 W&B Inference 문서에서 확인하세요.

트레이닝

각 트레이닝 step에서 Serverless RL은 에이전트의 출력과 관련 보상(보상 함수로 계산됨)이 포함된 트래젝토리 배치를 수집합니다. 그런 다음 이 트래젝토리 배치를 사용해 작업에 맞게 base model을 특화하는 LoRA 어댑터의 가중치를 업데이트합니다. 이러한 LoRA를 업데이트하는 트레이닝 작업은 Serverless RL이 관리하는 전용 GPU 클러스터에서 실행됩니다. 트레이닝은 공개 프리뷰 기간 동안 무료입니다.

모델 저장소

Serverless RL은 트레이닝한 LoRA의 체크포인트를 저장하므로, 언제든 이를 평가하거나 서빙하거나 트레이닝을 계속할 수 있습니다. 저장소 비용은 총 체크포인트 크기와 가격 플랜에 따라 매월 청구됩니다. 모든 플랜에는 최소 5GB의 무료 저장소가 포함되며, 이는 LoRA 약 30개를 저장하기에 충분합니다. 공간을 절약하려면 성능이 낮은 LoRA를 삭제하는 것이 좋습니다. 방법은 ART SDK를 참조하세요.

제한 사항

  • Inference 동시성 제한: 기본적으로 Serverless RL은 현재 사용자당 최대 2000개의 동시 요청과 프로젝트당 6000개의 동시 요청까지 지원합니다. 요청 속도 제한을 초과하면 Inference API는 429 Concurrency limit reached for requests 응답을 반환합니다. 이 오류를 방지하려면 트레이닝 작업 또는 프로덕션 워크로드가 한 번에 보내는 동시 요청 수를 줄이세요. 더 높은 요청 속도 제한이 필요하면 support@wandb.com으로 요청할 수 있습니다.
  • 지리적 제한: Serverless RL은 지원되는 지역에서만 사용할 수 있습니다. 자세한 내용은 Terms of Service를 참조하세요.