Sluit u aan bij onze dagelijkse en wekelijkse nieuwsbrieven voor de laatste updates en exclusieve inhoud over toonaangevende AI-dekking. Meer informatie
De volgende fase van agentische AI bestaat wellicht uit evaluatie en monitoring, omdat bedrijven de agenten die ze gaan inzetten beter waarneembaar willen maken.
Hoewel benchmarks voor AI-agenten misleidend kunnen zijn, is het van groot belang om te zien of de agent werkt zoals hij wil. Met dit doel voor ogen beginnen bedrijven platforms aan te bieden waarop klanten AI-agents kunnen sandboxen of hun prestaties kunnen evalueren.
Salesforce heeft zijn agentevaluatieplatform, Agentforce Testing Center, woensdag in een beperkte pilot vrijgegeven. Algemene beschikbaarheid wordt verwacht in december. Met Testing Center kunnen bedrijven AI-agents observeren en prototypen om ervoor te zorgen dat ze toegang krijgen tot de workflows en gegevens die ze nodig hebben.
De nieuwe mogelijkheden van Testing Center omvatten door AI gegenereerde tests voor Agentforce, Sandboxes voor Agentforce en Data Cloud en monitoring en observatie voor Agentforce.
Door AI gegenereerde tests stellen bedrijven in staat AI-modellen te gebruiken om “honderden synthetische interacties” te genereren om te testen of agenten uiteindelijk antwoorden op de manier waarop bedrijven dat willen. Zoals de naam al doet vermoeden, bieden sandboxen een geïsoleerde omgeving om agenten te testen, terwijl de gegevens van een bedrijf worden gespiegeld om beter weer te geven hoe de agent voor hen zal werken. Dankzij monitoring en observatie kunnen bedrijven een audittrail naar de sandbox brengen wanneer de agents in productie gaan.
Patrick Stokes, executive vice-president van product- en sectormarketing bij Salesforce, vertelde VentureBeat dat het Testing Center deel uitmaakt van een nieuwe klasse agenten die het bedrijf Agent Lifecycle Management noemt.
“We positioneren wat volgens ons een grote nieuwe subcategorie van agenten zal zijn”, aldus Stokes. “Als we het over levenscyclus hebben, bedoelen we het hele proces, van het ontstaan tot de ontwikkeling, tot en met de implementatie, en vervolgens de iteraties van je implementatie naarmate je verder komt.”
Stokes zei dat het Testcentrum op dit moment geen workflow-specifieke inzichten heeft waar ontwikkelaars de specifieke keuzes kunnen zien in API, data of model van de gebruikte agenten. Salesforce verzamelt dat soort gegevens echter op zijn Einstein Trust Layer.
“Wat we doen is ontwikkelaarstools bouwen om die metadata aan onze klanten bloot te stellen, zodat ze deze daadwerkelijk kunnen gebruiken om hun agenten beter te bouwen”, aldus Stokes.
Salesforce hangt zijn hoed op AI-agenten en richt veel energie op zijn agentenaanbod Agentforce. Salesforce-klanten kunnen vooraf ingestelde agenten gebruiken of aangepaste agenten bouwen op Agentforce om verbinding te maken met hun instanties.
Beoordelen van agenten
AI-agenten raken veel punten in een organisatie, en aangezien goede agentische ecosystemen tot doel hebben een groot deel van de workflows te automatiseren, wordt het essentieel dat ze goed werken.
Als een agent besluit de verkeerde API te gebruiken, kan dit een ramp betekenen voor een bedrijf. AI-agenten zijn stochastisch van aard, net als de modellen die ze aandrijven, en houden rekening met elke mogelijke waarschijnlijkheid voordat ze met een uitkomst komen. Stokes zei dat Salesforce agenten test door de agent te bestoken met versies van dezelfde uitingen of vragen. De reacties worden beoordeeld als geslaagd of mislukt, waardoor de agent kan leren en evolueren binnen een veilige omgeving die menselijke ontwikkelaars kunnen controleren.
Platformen die bedrijven helpen AI-agenten te evalueren, zijn hard op weg een nieuw soort productaanbod te worden. In juni, klantervaring AI-bedrijf Sierra lanceerde een AI-agentbenchmark genaamd TAU-bench om te kijken naar de prestaties van conversatieagenten. Automatiseringsbedrijf UiPath heeft zijn vrijgegeven Agent Builder-platform in oktober wat ook een manier bood om de prestaties van agenten te evalueren voordat ze volledig werden ingezet.
Het testen van AI-toepassingen is niets nieuws. Naast het benchmarken van modelprestaties, laten veel AI-modelrepository’s zoals AWS Bedrock en Microsoft Azure klanten al basismodellen testen in een gecontroleerde omgeving om te zien welke het beste werkt voor hun gebruiksscenario’s.