- Serverless RL: 速度を高めてコストを削減しながら、複数ターンのエージェントタスクを実行する際のモデルの信頼性を向上させます。RL は、モデルが出力に対するフィードバックを通じて振る舞いを改善していくトレーニング手法です。
- Serverless SFT: 蒸留、出力のスタイルや形式の学習、または RL 前のウォームアップのために、厳選されたデータセットを使ってモデルをファインチューニングします。
- ART: 柔軟なファインチューニングフレームワーク。
- RULER: 汎用ベリファイア。
- CoreWeave Cloud 上のフルマネージドバックエンド。