Amazon wird ein menschliches Benchmarking-Team bereitstellen, um Modelle für künstliche Intelligenz zu testen

Amazon möchte, dass Nutzer KI-Modelle besser bewerten und mehr Menschen dazu ermutigen, sich an dem Prozess zu beteiligen. Auf der AWSre:Invent-Konferenz kündigte Swami Sivasubramanian, Vizepräsident für Datenbank, Analyse und maschinelles Lernen bei AWS, die Funktion „Model Evaluation on Bedrock“ an, die jetzt als Vorschau für Modelle in seinem Repository Amazon Bedrock verfügbar ist.

Ohne eine transparente Möglichkeit zum Testen von Modellen verwenden Entwickler möglicherweise Modelle, die für Frage-und-Antwort-Projekte nicht genau genug oder für ihre Anwendungsfälle zu groß sind.

„Modellauswahl und -bewertung erfolgen nicht nur am Anfang, sondern werden regelmäßig wiederholt. Wir halten es für wichtig, einen Menschen auf dem Laufenden zu halten, deshalb bieten wir eine Möglichkeit, menschliche Bewertungsabläufe und Modellleistungsmetriken einfach zu verwalten“, sagte Sivasubramanian.

Manche Entwickler fragen sich oft, ob sie in ihrem Projekt ein größeres Modell verwenden sollten, weil sie davon ausgehen, dass ein leistungsfähigeres Modell ihren Anforderungen gerecht wird. Später stellten sie fest, dass sie auf einem kleineren Modell hätten entwickeln können. Die Modellbewertung besteht aus zwei Teilen: automatischer Bewertung und manueller Bewertung. In der automatisierten Version können Entwickler in die Bedrock-Konsole gehen und ein Modell zum Testen auswählen. Anschließend können sie die Leistung des Modells anhand von Metriken wie Robustheit, Genauigkeit oder Toxizität bei Aufgaben wie Zusammenfassung, Textklassifizierung, Beantwortung von Fragen und Textgenerierung bewerten.

Bedrock umfasst beliebte KI-Modelle von Drittanbietern wie Llama2 von Meta, Claude2 von Anthropic und StableDiffusion von StabilityAI.

AWS stellt Testdatensätze bereit, und Kunden können auch ihre eigenen Daten in die Benchmarking-Plattform einbringen, um die Leistung des Modells besser zu verstehen. Anschließend generiert das System einen Bericht.

Wenn eine menschliche Beteiligung erforderlich ist, können Benutzer wählen, ob sie mit dem menschlichen Bewertungsteam von AWS oder ihrem eigenen Team zusammenarbeiten möchten. Kunden müssen den Aufgabentyp (z. B. Zusammenfassung oder Textgenerierung), die Bewertungsmetriken und den Datensatz angeben, den sie verwenden möchten. AWS stellt den Kunden, die mit dem Bewertungsteam zusammenarbeiten, individuelle Preise und Zeitpläne zur Verfügung.

Vasi Philomin, Vizepräsident für generative künstliche Intelligenz bei AWS, sagte, ein besseres Verständnis der Modellleistung könne die Entwicklung besser steuern. Außerdem können Unternehmen dadurch erkennen, ob ein Modell einige verantwortungsvolle KI-Standards nicht erfüllt, wie z. B. eine geringe oder übermäßige Toxizitätsempfindlichkeit, bevor sie es zum Bauen verwenden.

„Es ist wichtig, dass die Modelle zu unseren Kunden passen, um zu wissen, welches Modell für sie am besten funktioniert, und wir geben ihnen eine bessere Möglichkeit, es zu bewerten“, sagte Philomin. AWS verlangt nicht von allen Kunden ein Benchmarking der Modelle, da einige Entwickler möglicherweise bereits einige der Basismodelle auf Bedrock verwendet haben oder ein gewisses Verständnis für die Fähigkeiten des Modells haben. Unternehmen, die noch unentschlossen sind, welches Modell sie verwenden sollen, können vom Benchmarking-Prozess profitieren.

Sivasubramanian sagte auch, dass Menschen bei der Bewertung von KI-Modellen andere Indikatoren erkennen können, die automatisierte Systeme nicht erkennen können – etwa Empathie oder Freundlichkeit.

AWS gab an, dass sich der Benchmarking-Service zwar noch in der Vorschauphase befinde, aber nur für die im Evaluierungsprozess verwendete Modellinferenz Gebühren erhebt.

Zwar gibt es keinen spezifischen Standard für das Benchmarking von KI-Modellen, einige Branchen akzeptieren jedoch im Allgemeinen bestimmte Kennzahlen. Das Ziel des Bedrock-Benchmarks besteht nicht darin, eine umfassende Bewertung des Modells bereitzustellen, sondern Unternehmen eine Möglichkeit zu bieten, die Auswirkungen des Modells auf ihre Projekte zu messen.