
Läget för AI för röstsamtal inom utbildning
Hur AI för samtalsröst ger möjlighet att öka inlärningsresultaten med 10 gånger
Läkarutbildningen är utmanande, och det är milt uttryckt.
För bara några år sedan spenderade studenter sina dagar med att memorera oändliga flashcards och information från tunga läroböcker. Ändå fanns det en känsla av att oavsett hur många fakta du trycker in, är inget tillräckligt för att fullt ut förbereda blivande läkare för verkliga patientmöten.
Sketchys grundare kände igen den känslan alltför väl. De var själva läkarstudenter 2013 och ritade karaktärer på servetter för att hjälpa till att göra inlärningen av mikrobiologiämnen mer minnesvärd.
Snart blev dessa servettskissar en fullfjädrad visuell inlärningsplattform som nu används av hundratusentals läkarstudenter världen över.
Men det finns en del av den kliniska resan som inte ens de bästa illustrationerna kunde fånga: verkliga patientkonversationer.
När Sketchy började experimentera med patientsimuleringar var målet inte bara att återskapa scenarier. Det var att framkalla en känslomässig respons hos studenterna.Tvekan i en patients röst. En subtil förvirring.De subtila signalerna som förvandlar klinisk kunskap till kliniskt omdöme.
Det var där ElevenLabs kom in.
Sketchy hade redan gjort sig ett namn genom att förvandla komplex medicinsk information till visuella minnen. Men när teamet grävde djupare i klinisk utbildning märkte de en lucka.
Studenter tog examen med starka grundläggande kunskaper, men saknade ofta praktik i kliniskt tänkande, kommunikation, empati och den osäkerhet som kännetecknar verklig patientvård.
OSCE-förberedelser, praktik och muntliga prov kräver mer än återkallande. De kräver flexibilitet och en aktiv närvaro. Och inget flashcard-däck lär dig hur du svarar när en patient ställer sin första fråga, eller hur du navigerar kulturella nyanser när du levererar svåra nyheter.
Sketchy började utforska sätt att simulera dessa ögonblick. Svaret var inte mer statiskt innehåll eller videor med valmöjligheter. Det behövde kännas som en riktig konversation, med så mycket av verkligheten och oförutsägbarheten som följer med det.
“Vi använde redan AI för att bygga interaktiva fall,” delade Ben Muller, MD, Sketchys Chief Content Officer. “Men upplevelsen kändes inte helt mänsklig förrän vi lade till röst.”
Tidiga experiment med färdiga röstmodeller var inte imponerande. Platt ton. Robotisk takt. Känslomässig frånkoppling. I klinisk inlärning spelar dessa saknade bitar roll.
Det som gjorde ElevenLabs annorlunda var hur verkligt det lät, ner till tonfallen. Plattformen gav Sketchy tillgång till känslomässigt uttrycksfulla röster på dussintals språk, med fin kontroll över takt, ton och till och med fonetiska egenheter.

En av de tidiga utmaningarna? Temperatur. Bokstavligen.
“Röstmodeller läste saker som ‘98 °F’ som ‘nittioåtta grader… F,” mindes Dr. Muller. Lösningen innebar att skapa fonemdiktionärer för att styra uttalet. En liten teknisk detalj, men en talande sådan. För i klinisk dialog är precision viktigt.
När ElevenLabs integrerades blev förändringarna i studentupplevelsen omedelbara.
Patientsimuleringar slutade låta som skådespelare som läser manus och började kännas som konversationer du faktiskt kan ha på avdelningen. Sketchy använde ElevenLabs för att designa röster för karaktärer med distinkta personligheter — tveksamma, varma, bestämda och förvirrade. Varje röst anpassades för att matcha specifika kliniska scenarier.
En student som arbetar med ett astmafall kan stöta på en orolig mamma som ställer snabba frågor. Ett annat fall kan involvera en tonåring som tyst tonar ner symtom. AI-agenterna började svara autentiskt och anpassade sitt framförande för att låta som naturligt mänskligt tal.
Snart började överväldigande positiv feedback strömma in:
“Detta var superkul… Jag kan inte vänta på fler fall.”
“Jag älskade patientens personlighet och den livliga konversation hon kunde ha.”
Studenter gjorde mer än bara lärde sig: de kopplade i verklig, interaktiv praktik. Och det var det som inspirerade skapandet av Sketchy från början.
Sketchy jagade inte nyhet för nyhetens skull. Deras innehålls- och produktteam testade noggrant hur röstinteraktioner påverkade studenternas självförtroende, minne och långsiktiga beredskap. Vad de fann var uppmuntrande.
Genom att ersätta passiva flervalsfrågor med aktiv dialog, övade studenterna på vad de skulle säga, och hur de skulle säga det.
Eftersom formatet var interaktivt kunde teamet också studera hur studenterna lärde sig: vad de pausade vid, var de tvekade och hur snabbt de anpassade sig.
För Sketchy var dessa insikter inte abstrakta. De matades direkt in i designen av framtida simuleringar, vilket hjälpte till att förfina både det pedagogiska innehållet och AI-logiken bakom det som en fördelaktig inlärningsutvecklingscykel.
Ur ett affärsperspektiv var det logiskt att integrera ElevenLabs.
Voice AI-interaktioner har blivit en tydlig differentierare, särskilt för institutioner som söker mer uppslukande och upprepbara inlärningsformat. De röstdrivna fallen håller eleverna engagerade längre och uppmuntrar till mer frekventa återkommande sessioner (en mätning som teamet följer noga).
Men det verkliga värdet var svårare att kvantifiera. Studenter lämnade simuleringarna bättre förberedda och också mer nyfikna, reflekterande och villiga att försöka igen och förbättra sig.
Den förändringen i tänkesätt mot aktiv, självstyrd, människocentrerad inlärning är inte lätt att skapa. Men med rätt röstteknik blev det möjligt för Sketchy.
Sketchy ser nu voice AI som en pelare i sin framtida plattform, inte en engångsinnovation.
Nya användningsområden är redan under utveckling, som omfattar scenarier som sträcker sig bortom kliniska fakta till områden som etik, teamwork och konfliktlösning.
När diagnostiska AI-verktyg förbättras förväntar sig Sketchys team att deras roll kommer att utvecklas. Det kommer inte att vara
tillräckligt att träna studenter att leverera rätt diagnos. De måste också lära sig att tolka AI-utdata, hantera osäkerhet och kommunicera risker till patienter med klarhet och empati.
I det sammanhanget blir mänsklig kontakt en konkurrensfördel.
Och röst, genuin, ofullkomlig, mänskligt klingande röst, spelar en central roll.
Om det finns en lärdom Sketchy skulle erbjuda kollegor i EdTech-världen är det denna: Digitalisera inte bara det som redan finns.Använd AI för att bygga det som inte kunde existera tidigare.
Voice AI låste upp nya möjligheter att simulera patienter som avbryter. Känslor som överraskar dig. Karaktärer som formar hur en patients fall uppfattas känslomässigt. Dessa är inte gimmickar. De är verktyg som tränar studenter att navigera i den verkliga världen, snarare än en linjärt skriptad.
Som Girish Krishnaswamy, Sketchys VD, uttryckte det: “Målet var aldrig att ersätta instruktörer eller automatisera empati. Det var att ge lärare superkrafter och göra lärandet oförglömligt för studenter.”

Hur AI för samtalsröst ger möjlighet att öka inlärningsresultaten med 10 gånger

Chess.com ger sin virtuella schacklärare en röst
Drivs av ElevenLabs Agenter