これはインタラクティブなノートブックです。ローカルで実行するか、以下のリンクを利用できます。
ガードレールとしての Scorers
score メソッドを持つクラスです。基本的なルールから、判定役としての LLM まで、さまざまなものがあります。
このノートブックは、実行時に Scorers を適用して、望ましくないモデルの出力をブロックまたはフィルターしたい Weave Users 向けです。読み進めながら、LLM のレスポンスをインターセプトし、Scorer で評価し、Scorer がそのレスポンスを安全でないと判定した場合にフォールバックメッセージを返すコンテンツ安全性ガードレールを構築します。このように Scorers を使用すると、オフライン Experiments を支えるのと同じ評価ロジックを再利用して、本番環境で安全性ポリシーを適用できます。
このノートブックを終えるころには、LLM Call をラップし、Scorer の判定に応じて元のレスポンスまたは安全なフォールバックのいずれかを返す、動作する ContentSafetyScorer が完成します。