メインコンテンツまでスキップ

Hugging Face Autotrain

🤗 AutoTrain は、自然言語処理 (NLP) タスク、コンピュータビジョン (CV) タスク、音声タスク、さらには表形式データタスクのために最先端のモデルをトレーニングするためのノーコードツールです。

Weights & Biases は 🤗 AutoTrain に直接統合されており、実験管理と設定管理を提供します。実験のためのCLIコマンドで1つのパラメーターを使用するだけで簡単に利用できます!

実験のメトリクスがどのようにログされるかの例
実験のメトリクスがどのようにログされるかの例。

はじめに

まず、autotrain-advancedwandb をインストールする必要があります。

pip install --upgrade autotrain-advanced wandb

はじめに: LLMのファインチューニング

これらの変更を示すために、数学データセットでLLMをファインチューンし、GSM8kベンチマークpass@1のSoTA結果を達成しようと試みます。

データセットの準備

🤗 AutoTrainは、CSV形式のカスタムデータセットを適切な形式で動作させることを期待しています。トレーニングファイルには、トレーニングが実施される「text」列が含まれている必要があります。最良の結果を得るために、「text」列には ### Human: Question?### Assistant: Answer. フォーマットでデータが含まれている必要があります。AutoTrain Advancedが期待するデータセットの優れた例は、timdettmers/openassistant-guanaco です。しかし、MetaMathQAデータセット を見ると、「query」、「response」と「type」の3つの列があります。このデータセットを前処理して「type」列を削除し、「query」と「response」列の内容を### Human: Query?### Assistant: Response. フォーマットで「text」列にまとめます。結果として得られるデータセットはrishiraj/guanaco-style-metamath であり、トレーニングに使用されます。

Autotrain Advancedを使用したトレーニング

Autotrain AdvancedのCLIを使ってトレーニングを開始できます。ログ機能を活用するためには、単に--log 引数を使用します。--log wandb を指定すると、結果がシームレスに W&B run にログされます。

autotrain llm \
--train \
--model HuggingFaceH4/zephyr-7b-alpha \
--project-name zephyr-math \
--log wandb \
--data-path data/ \
--text-column text \
--lr 2e-5 \
--batch-size 4 \
--epochs 3 \
--block-size 1024 \
--warmup-ratio 0.03 \
--lora-r 16 \
--lora-alpha 32 \
--lora-dropout 0.05 \
--weight-decay 0.0 \
--gradient-accumulation 4 \
--logging_steps 10 \
--fp16 \
--use-peft \
--use-int4 \
--merge-adapter \
--push-to-hub \
--token <huggingface-token> \
--repo-id <huggingface-repository-address>
実験のすべての設定がどのように保存されるかの例
実験のすべての設定がどのように保存されるかの例。

その他のリソース

Was this page helpful?👍👎