Décorez les fonctions de modèle local avec @weave.op()
weave.init('<your-project-name>'), puis en encapsulant les appels à vos LLM avec weave.op(). Pour plus de détails, voir le guide de Tracing.
Mettez à jour votre code du SDK d’OpenAI pour utiliser des modèles locaux
base_url lors de l’initialisation de openai.OpenAI(). Cela indique au SDK d’OpenAI d’envoyer les requêtes à votre serveur local plutôt qu’à l’API hébergée d’OpenAI.
api_key peut être n’importe quelle chaîne, mais vous devez la redéfinir. Sinon, le SDK d’OpenAI la lit dans les variables d’environnement et affiche une erreur.
Runners de modèles locaux pris en charge
- Nomic GPT4All - prise en charge via Local Server dans les paramètres (FAQ)
- LMStudio - prise en charge du SDK d’OpenAI via Local Server, documentation
- Ollama - compatibilité OpenAI pour le SDK d’OpenAI
- llama-cpp-python - package Python permettant d’exécuter
llama.cppavec la prise en charge du SDK d’OpenAI - llamafile -
http://localhost:8080/v1prend automatiquement en charge le SDK d’OpenAI lorsque vous exécutez Llamafile