· 

Interaktive Avatare und ihre (europäische) Zukunft – ein Interview mit D-ID

Torsten Friedrich ist Chief Revenue Officer bei D-ID und treibt die internationale Wachstumsstrategie für KI-basierte Video- und Avatar-Technologien voran. Als studierter Informationstechniker verbindet er technologische Tiefe mit unternehmerischer Perspektive und versteht es, komplexe KI-Systeme in skalierbare, wirtschaftlich relevante Lösungen zu übersetzen. Sein Fokus liegt darauf, digitale Kommunikation durch interaktive Avatare und Video-Agenten neu zu denken und Unternehmen dabei zu unterstützen, Innovation operativ wirksam zu machen. 


Masterclass-Avatare: Für alle, die D-ID nur „vom Namen her“ kennen: Was ist D-ID in einem Satz? 

 

Torsten Friedrich: D-ID ist eine KI-basierte Video-Agenten-Plattform für die Erstellung von Avatar-Videos und interaktiven Video-Agenten, die Mitarbeiter und Kunden persönlich ansprechen, Fragen in Echtzeit beantworten und Prozesse skalierbar automatisieren - für bessere Customer und Learner Experiences, messbar höhere Conversions und geringere operative Kosten. 

 

Masterclass-Avatare: Was ist aktuell das Wichtigste „News-Update“ bei euch? 

 

Torsten Friedrich: Drei Dinge sind für den Markt gerade besonders relevant: 

  • Stärkere Präsenz in Deutschland sowie die zeitnahe Verfügbarkeit eines EU-Hostings. 
  • Unsere neuesten Avatare sind aktuell bereits für erste Beta-Kunden verfügbar. In Kürze wird dieses besonders ausdrucksstarke, für Echtzeit-Anwendungsfälle optimierte Modell mit dynamischer Emotionsanpassung auch im Live-Streaming zur Verfügung stehen. Dadurch wirken Gespräche und Interaktionen mit digitalen Avataren deutlich natürlicher und näher am menschlichen Gegenüber. 
  • Eine stetig wachsende Zahl von Solution Partnern, die auf Basis unserer Video-Agenten Lösungen für spezielle Use Cases unserer Kunden entwickeln und implementieren. Darüber hinaus sei auch unsere strategische Partnerschaft mit Microsoft erwähnt, die gerade für Großkunden finanziell sehr relevant ist.

 

Masterclass-Avatare: Was bedeutet „Solution Partner“? 

 

Torsten Friedrich: Mit „Solution Partner“ bezeichnen wir Unternehmen wie Ipsos, HeadBox oder AcolyteHealth, die auf Basis unserer interaktiven Avatar-Technologie eigene, klar definierte Lösungen entwickeln. Das sind keine klassischen Implementierungspartner, sondern Anbieter mit einem eigenen Produktansatz, beispielsweise im Sales-Training oder in der medizinischen Ausbildung, in dem unsere Video-Agenten eine tragende technologische Rolle spielen. 

 

Strategisch ist das für uns entscheidend: Statt jede Lösung selbst zu bauen, entsteht ein Ökosystem spezialisierter Anbieter, die unsere Kerntechnologie mit ihrer Branchenexpertise, Methodik und Content-Logik kombinieren. So skalieren wir nicht nur technologisch, sondern auch inhaltlich. Und Kunden erhalten sofort einsatzbereite, bewährte Lösungen für konkrete Geschäftsprobleme. 

 

Masterclass-Avatare: Du hattest im Vorgespräch erwähnt: D-ID sitzt jetzt in Berlin, was bedeutet das praktisch? 

 

Torsten Friedrich: D-ID hat mit der Übernahme des Unternehmens simpleshow eine tiefe Präsenz im deutschen und europäischen B2B-Kundenmarkt etabliert. Das bedeutet für Kunden: mehr Nähe, kürzere Wege, schnellere Abstimmung. Wenn Kunden Pilotprojekte starten, ist es extrem hilfreich, lokal jemanden zu haben, der beim Setup, Use Case-Design und bei Stakeholder-Fragen ganz hands-on unterstützt. Und ja: Berlin ist dafür ein guter Hub.

 

Masterclass-Avatare: Für uns und unsere Kunden ist das Thema EU-Hosting sehr interessant. Wie ist da der Stand? 

 

Torsten Friedrich: Aus vielerlei Hinsicht ist regionales Datenhosting insbesondere bei KI-Anwendungen für viele unserer Kunden ein Muss. D-ID liefert und schon in Kürze werden wir auch EU-Server/EU-Hosting für unsere interaktiven Video-Agenten zur Verfügung stellen können (für Avatar-Video-Creation bieten wir es heute schon an). Darüber hinaus bietet die D-ID Plattform höchste Flexibilität, unternehmensspezifische LLMs und Datenquellen anbinden zu können. Nicht zuletzt unsere vielzählig Sicherheitszertifizierungen (SOC2, SCC, ISO) zeigen unser Commitment zu Enterprise-fähiger Datensicherheit. 

 

Masterclass-Avatare: Was siehst du im Markt: Wofür werden Streaming-Minuten wirklich genutzt? 

 

Torsten Friedrich: Die echten, wertvollen Use Cases entstehen fast nie bei „wir machen mal ein Avatar-Video“, sondern bei Skalierung von Unternehmensprozessen, so wie z.B. in der Kundenkommunikation im B2C-Bereich. Ob als Produktberater oder Kundensupport - unsere Kundenbeispiele aus Handel, Banking und anderen Branchen zeigen, welches Potenzial Avatar-Agenten haben.

PepsiCos Gatorade Sports Science Institute (GSSI) nutzt D-ID Visual Agents, um Hydrationsberatung in ein Echtzeit-Erlebnis mit wechselseitigem 

Austausch zu verwandeln. Auf der lateinamerikanischen GSSI-Website führt der Hydration Coach Besucher:innen durch ein interaktives „Face-to-Face“-Gespräch, beantwortet Fragen, passt sich individuellen Bedürfnissen an und macht wissenschaftlich fundierte Empfehlungen persönlich und nahbar. https://www.gssilatam.org/

 

Darüber hinaus sind Rollenspiel-Szenarien mit Avatar-Trainern, interaktive Lernkontrollen oder Onboarding-Buddies wichtige Themen für unternehmensinterne Anwendungsfälle von Video-Agenten. 

 

D-ID hat darüber hinaus ein gemischtes Format im Angebot: Agentic Videos. Dabei wird Videocontent mit interaktiven Agenten nahtlos kombiniert. Während des Anschauens kann der Zuschauer jederzeit ein Gespräch mit dem Avatar im Video starten. Dieser kann Fragen beantworten oder weiterführende Aktionen einleiten. Dieses Format erfreut sich eines sehr positiven Feedbacks unserer Kunden, die diese neue interaktive Art der Videokommunikation zurecht begeistert aufnehmen. 

 

Masterclass-Avatare: „Agentic Videos“ klingt spannend. Kann ich das schon nutzen? 

 

Torsten Friedrich: Ja, das kannst du bereits nutzen. ‘Agentic Videos’ verbindet zwei Dinge, die wir heute schon anbieten: Videocontent und interaktive Video Agenten.

Praktisch heißt das: Du veröffentlichst ein Video und der Zuschauer kann jederzeit in den Dialog wechseln. Also Fragen stellen, sich Dinge erklären lassen oder direkt den nächsten Schritt auslösen (z. B. weiterführende Inhalte, Terminvereinbarung, Kontaktaufnahme, Download, Prozessstart). 

 

Der große Unterschied zu einem klassischen Video ist, dass Kommunikation nicht mehr ‘one-way’ ist. Jeder Zuschauer bekommt die Möglichkeit, genau an seiner Stelle im Video nachzufragen und der Avatar antwortet kontextbezogen.

Für Unternehmen ist das besonders spannend in Bereichen wie Training & Enablement, Produkt- und Prozesskommunikation, Customer Support oder HR/Onboarding, weil sich damit Reichweite und Verständnis deutlich steigern lassen, ohne dass jedes Mal ein Mensch live dabei sein muss.

 

Am besten startet man mit einem klaren Use Case und 3-5 typischen Fragen/Szenarien. Dann sieht man sehr schnell den Effekt und kann das Format auf weitere Inhalte skalieren. 

 

Masterclass-Avatare: In unserem Avatar Vergleichs-Post ging es um HeyGen und Synthesia. Wo würdest du D-ID im Vergleich einordnen? 

 

Torsten Friedrich: Für die Avatar-Video-Erstellung liefern wir uns einen Wettkampf auf sehr hohem Niveau und pushen uns dort gegenseitig zu neuen Höchstleistungen, sehr zum Vorteil unserer Kunden. Wie beim Autokauf sind dort oft persönliche Vorlieben oder Kleinigkeiten ausschlaggebend. Ich würde sagen, dass neben den reinen Avatar-Videos, die wir alle erstellen können, unsere Kunden die Möglichkeit sehr schätzen, auf unserer Plattform auch Illustrations-Videos erstellen zu können. 

 

Im Bereich der interaktiven Video-Agenten, insbesondere jetzt mit unseren V4 Avataren (Expressive) und den Agentic Videos, sehe ich uns im Vergleich zum einzigen Anbieter mit einem vergleichbaren Produkt, HeyGen, deutlich vorne, insbesondere was das Thema Leistungsfähigkeit und technische Flexibilität angeht. Das Thema EU-Hosting wird das noch weiter verstärken. Synthesia bietet meines Wissens nach keine interaktiven Video-Agenten, die man direkt auf der eigenen WebSite oder in der eigenen Business Applikation einbinden kann. 

 

Darüber hinaus bietet unser Status als Certified Microsoft Partner allen Microsoft Kunden weitere finanzielle Vorteile. 

 

Masterclass-Avatare: Was sind aus deiner Sicht die wichtigsten Kriterien, um Avatar-Plattformen seriös zu vergleichen? 

 

Torsten Friedrich: Wenn man Avatar-Plattformen bewertet, sollte man sie nicht nur danach beurteilen, wie gut ein einzelnes Avatar-Video aussieht, sondern danach, wie ganzheitlich sie digitale Kommunikation ermöglichen. Entscheidend ist zunächst die Bandbreite der Formate: Nicht 

jede Botschaft braucht ein sprechendes Gesicht, deshalb sollte eine Plattform neben Avatar-Videos auch klassische Illustrations- und Erklärvideos unterstützen, um je nach Zielgruppe und Kontext das passende Format wählen zu können. 

 

Zweitens spielt bei interaktiven Szenarien die Latenz eine zentrale Rolle – nur wenn Avatare nahezu in Echtzeit reagieren, entsteht eine natürliche Interaktion, die Vertrauen schafft, insbesondere in Service-, Sales- oder Trainingsanwendungen. 

 

Ein weiteres zentrales Kriterium ist die Qualität der Avatare und Agenten selbst: präziser Lip-Sync, stimmiger Ausdruck und saubere Übergänge zwischen Zuhören und Sprechen sind entscheidend für Glaubwürdigkeit. 

 

Ebenso wichtig ist die Integration in bestehende Arbeitsumgebungen - wenn Avatare direkt in Tools wie PowerPoint oder Canva genutzt werden können, werden sie vom Spezialwerkzeug zum alltäglichen Kommunikationsmittel und sorgen für konsistente Nutzung über Marketing, L&D und Customer Service hinweg. 

 

Schließlich sollte man darauf achten, ob eine Plattform über einzelne Use Cases hinaus skalierbar ist und sowohl interne als auch externe Anwendungsfälle abdeckt. 

 

Die wirklich starken Anbieter unterscheiden sich weniger durch einzelne Features, sondern dadurch, dass sie digitale Kommunikation ganzheitlich denken und im Alltag einfach nutzbar machen. 

 

Masterclass-Avatare: Wo siehst du typische Stolpersteine bei Unternehmen, die Avatare einführen? 

 

Torsten Friedrich: Typische Stolpersteine bei der Einführung von Avataren unterscheiden sich erstaunlich wenig von denen bei anderen neuen Software- oder Technologieeinführungen. 

Häufig wird die Technologie zuerst betrachtet und nicht der konkrete Use Case: Avatare werden als Experiment gestartet, ohne klar zu definieren, welches Problem sie lösen sollen. 

 

Auch Erwartungsmanagement ist ein kritischer Punkt: Neue Technologien werden oft mit zu hohen oder falschen Erwartungen eingeführt, was schnell zu Enttäuschung führt, wenn erste Ergebnisse nicht sofort sichtbar sind. 

 

Hinzu kommt, dass Unternehmen die Qualität und Nutzererfahrung unterschätzen. Insbesondere bei interaktiven Avataren reagieren Menschen sehr sensibel auf Latenz, unnatürlichen Ausdruck oder inkonsistente Kommunikation. 

 

Schließlich fehlt es häufig an klarer Ownership und Skalierungsstrategie: Ohne definierte Verantwortlichkeiten und ohne Plan, wie erfolgreiche Pilotprojekte in den Alltag überführt werden, bleiben Avatare ein nettes Innovations-Showcase statt ein messbarer Bestandteil der Kommunikations- und Prozesslandschaft. 

 

Masterclass-Avatare: Wie würdest du einen idealen Pilot für DACH aufsetzen? 

 

Torsten Friedrich: Einen idealen Pilot für DACH würde ich wie ein klassisches Software-Pilotprojekt aufsetzen. Am Anfang steht ein klar definierter Use Case mit einem messbaren Business-Ziel, zum Beispiel Entlastung im Customer Service, bessere Conversion im Marketing oder effizienteres Training im L&D-Umfeld. Wichtig ist, bewusst klein und fokussiert zu starten, damit schnell belastbare Erkenntnisse entstehen. 

 

Der Pilot sollte realitätsnah, aber gleichzeitig pragmatisch angegangen werden. Gerade Themen wie DSGVO oder EU-Datacenter sind im DACH-Raum wichtig, sollten in einem Pilot aber nicht zum Blocker werden. Für erste Tests reicht es häufig aus, mit nicht-sensiblen Inhalten zu arbeiten und klare Leitplanken zu setzen. So können Unternehmen Erfahrung sammeln, Akzeptanz aufbauen und fundiert entscheiden, welche Anforderungen für den späteren Rollout, etwa EU-Hosting oder zusätzliche Compliance-Maßnahmen, tatsächlich notwendig sind. 

 

Parallel von Beginn an klare, fachliche KPIs definieren statt technischer Metriken, etwa reduzierte Rückfragen, höhere Abschlussquoten, schnellere Einarbeitung oder bessere Nutzerzufriedenheit. Der Pilot ist zeitlich begrenzt, eng begleitet und dient nicht vorrangig dem Technologietest, sondern der Beantwortung einer einfachen Frage: Liefert dieser Anwendungsfall messbaren Mehrwert und lässt er sich sinnvoll skalieren? 

 

Wenn das gegeben ist, ist der Schritt von einem pragmatischen Pilot zu einer produktiven, compliant aufgesetzten Lösung deutlich kleiner, als viele Unternehmen anfangs erwarten. 

 

Masterclass-Avatare: Was würdest du Leser:innen empfehlen, die jetzt „Avatar-Ready“ werden wollen? 

 

Torsten Friedrich: Ganz klar, sprechen Sie uns an! 🙂 

 

Aber im Ernst. Nicht warten, bis alles perfekt ist. Mit einem sauberen, kleinen Use Case starten, klare Qualitätskriterien definieren und für den potentiellen Roll-Out Legal/IT parallel an Bord holen. 

 

Masterclass-Avatare: Woher kommt der Name D-ID eigentlich? 

 

Torsten Friedrich: Der Name D-ID kommt von “De-Identification” (auf Deutsch: De-Identifizierung). D-ID ist ursprünglich als Privacy-/Security-Software gestartet, die Gesichter in Bildern/Videos so verändert hat, dass sie nicht mehr zuverlässig durch Gesichtserkennung identifizierbar sind, daher der Name. 

 

Masterclass-Avatare: Wart ihr eigentlich die ersten am Avatar-Markt? 

 

Torsten Friedrich: D-ID war nicht ‘der allererste’ Anbieter im Avatar-Markt, aber wir gehören definitiv zu den frühen Pionieren. Das Unternehmen ist seit 2017 am Markt und hat sich früh auf Digital Humans und KI-basierte Video- und Avatar-Technologie fokussiert. Parallel sind auch andere Player in dieser Zeit entstanden.

Entscheidend ist aus unserer Sicht weniger ‘wer war zuerst’, sondern wer heute die Technologie so weiterentwickelt, dass sie enterprise-tauglich, skalierbar und verantwortungsvoll einsetzbar ist, genau daran arbeiten wir. 

 

Masterclass-Avatare: Was ist für einen vertrauenswürdigen Einsatz von Avatar-Videos im Marketing wichtig? 

 

Torsten Friedrich: Vertrauen entsteht durch Transparenz und Relevanz. Nutzer müssen klar erkennen, dass sie mit einem Video-Avatar interagieren und wofür dieser eingesetzt wird. Gleichzeitig sollte der Avatar echten Mehrwert liefern und zur Marke passen, in Tonalität, Auftreten und Inhalt. Avatar-Videos funktionieren dann gut im Marketing, wenn sie Teil einer klaren Strategie sind, Datenschutz 

berücksichtigt wird und sie nicht als Spielerei, sondern als sinnvoller Kommunikationskanal genutzt werden. 

 

Masterclass-Avatare: Wie hoch ist die Gefahr von Halluzinationen und falschen Antworten von Video-Agenten? Wie kann man die Gefahr minimieren? 

 

Torsten Friedrich: Halluzinationen sind ein bekanntes Thema bei generativer KI, lassen sich aber gut kontrollieren. Entscheidend ist, dass Video-Agenten auf klar definierte und geprüfte Wissensquellen zugreifen und nicht unkontrolliert Antworten generieren. Durch kuratierte Inhalte, definierte Antwortgrenzen, Retrieval-Mechanismen und Fallbacks, etwa die gezielte Übergabe an einen Menschen, lässt sich das Risiko falscher Aussagen deutlich reduzieren. 

 

Wenn man ehrlich ist, lautet die relevante Frage dabei nicht, ob KI theoretisch Fehler machen kann, sondern wie verlässlich sie im konkreten Einsatz im Vergleich zu bestehenden Prozessen ist. Auch menschliche Kommunikation ist nicht frei von Missverständnissen oder Fehlauskünften. Für klar abgegrenzte Use Cases, mit sauber definierten Wissensräumen und Monitoring, lassen sich Video-Agenten heute sehr stabil und nachvollziehbar betreiben, oft mit einer hohen Konsistenz in der Antwortqualität. 

 

Masterclass-Avatare: Viele Menschen kritisieren die zunehmende Aufgabenübernahme durch KI und Avatare und sorgen sich um den Verlust von Arbeitsplätzen. Erreicht euch diese Kritik und wenn ja, wie geht ihr damit um?

 

Torsten Friedrich: Natürlich erreicht uns diese Diskussion, und sie ist absolut legitim. KI wird Arbeitsprozesse verändern, daran besteht kein Zweifel. Aber aus unserer Sicht geht es weniger um den Ersatz von Menschen, sondern um dringend notwendige Unterstützung. 

 

In vielen Unternehmen fehlen heute Fachkräfte, Service-Teams sind überlastet, Trainingskapazitäten reichen nicht aus, und Kundenerwartungen steigen gleichzeitig. Genau hier können KI-gestützte Video-Agenten helfen: Sie übernehmen wiederkehrende Aufgaben, beantworten Standardfragen, unterstützen beim Onboarding oder Training. So schaffen sie Freiraum für die Aufgaben, bei denen menschliche Empathie, Erfahrung und Urteilsvermögen entscheidend sind. 

 

Unser Ziel ist nicht, Menschen zu ersetzen, sondern Kommunikation skalierbar zu machen und Qualität zu erhöhen, sei es durch besseren Service, konsistentere Informationen oder effektivere Lernformate. In den meisten Projekten, die wir sehen, geht es daher nicht um Stellenabbau, sondern um Produktivität, Entlastung und bessere Kundenerlebnisse. 

 

Masterclass-Avatare: Danke für das Interview.

 

Ein Avatar-Update von Masterclass-Avatare.

Masterclass-Avatare - eine Marke der

Snack-Content Company (SCC) Deutschland GmbH.
Friedrich-Ebert-Ufer 44a, 51143 Köln