Login

Willkomen zurück, bitte gebe deine Zugangsdaten ein!

Passwort vergessen

Anmeldung erfolgt in Kürze...
Fleebs-Logo
Details werden geladen...

touchstone-eval · PyPI

Personal eval benchmark: compare model outcomes across swappable CLI-agent harnesses on custom tasks.

Ähnliche Seiten