Gesellschaft für Arbeitsmethodik e.V.

präsentiert: Online Marketing für Beginner und Startups

KI&SEO INSIGHT

Multimodales SEO

28.10.2025 15 min

Zusammenfassung & Show Notes

 In dieser Folge von „Gut zu wissen – KI&SEO Insight“ erklärt Luisa, wie multimodale SEO die Spielregeln der Sichtbarkeit verändert.
Suchmaschinen verstehen längst nicht mehr nur Text – sie analysieren Bilder, Videos, Sprache und sogar die Antworten von KI-Chatbots.
Du erfährst, wie du Inhalte so optimierst, dass sie auf allen Kanälen – von Google Lens über Alexa bis YouTube Shorts – gefunden werden.
Mit aktuellen Zahlen, konkreten Praxisbeispielen von Otto.de, Zalando und Stark Deutschland zeigt die Episode, wie Visual Search, Voice Search und Video SEO zu bis zu 40 % mehr organischem Traffic und 78 % höheren Conversion-Raten führen.
Ein kompakter Leitfaden für alle, die 2025 und darüber hinaus sichtbar bleiben wollen. 

 Kapitel & Themen: 
  1. Einführung: Warum Multimodalität die Zukunft der Suche ist
  2. Was ist multimodale SEO?
    – Definition, Daten und aktuelle Statistiken zu Visual & Voice Search
  3. Visual Search:
    – Tools: Google Lens, Pinterest Lens, TinEye, Google Vision AI
    – Best Practices: Bildqualität, Alttexte, strukturierte Daten
    – Praxis: Kamps, Coppenrath & Wiese, Erlenbacher Backwaren
  4. Voice Search:
    – Conversational Content & FAQ-Strukturen
    – Featured Snippets & Long-Tail-Keywords
    – Lokale SEO und Google Business Profile
  5. Video SEO:
    – Plattformen: YouTube, TikTok, Instagram Reels, Shorts
    – Transkripte, Untertitel, Video-Schema, Kapitelmarken
    – Praxis: Otto.de, Zalando, Stark Deutschland
  6. KI-gestützte Optimierung:
    – Automatisiertes Tagging, strukturierte Daten, AI Overviews
  7. Fazit: Sichtbarkeit heißt 2025: verstanden werden – in allen Formaten.

Tools & Ressourcen:
Ahrefs • Semrush • Moz • Peec AI • Brand24 • Google Vision AI • TinEye

Literatur- und Quellenverzeichnis 
  • Google (2025): Visual Search & Lens Usage Statistics – internal report excerpted in Think with Google.
  • Statista (2025): Voice Search Usage in the U.S. (159.5 M users).
  • eMarketer (2025): Voice Commerce Forecast to 2030.
  • Search Engine Journal (2024–2025): AI Overviews and Multimodal Ranking Factors.
  • Otto Group (2024): AI Tagging and Product Image Optimization Case Study.
  • Zalando Tech Blog (2025): Visual Search and AI Driven Product Discovery.
  • Stark Deutschland (2024): KI-gestützte visuelle Produktsuche im B2B-Handel.
  • Moz / Semrush / Ahrefs Reports (2025): Brand Authority and Multimodal Search Signals.
 

 

Transkript

Hallo und herzlich willkommen zu einer neuen Folge von KI & SEO Insight. Ich bin Luisa, eure KI-Moderatorin, und heute dreht sich alles um multimodale SEO, also die Optimierung deiner Inhalte für Visual Search, Voice Search, Video SEO und die neuen KI-getriebenen Suchformate. In einer Welt, in der NutzerInnen Nicht mehr nur tippen, sondern sprechen, fotografieren, filmen und KI-Chatbots nutzen, entscheidet Multimodalität über Sichtbarkeit, Reichweite und Conversion. In dieser Folge erfährst du, wie du deine Inhalte für alle relevanten Suchkanäle fit machst, welche Tools und Best Practices es gibt und wie du von den neuesten Entwicklungen profitierst. Was ist multimodale SEO und warum ist sie 2025 unverzichtbar? Multimodale SEO bedeutet, Inhalte so zu gestalten, dass sie von Suchmaschinen und KI-Systemen über verschiedene Kanäle und Formate hinweg optimal gefunden und verstanden werden. egal ob Text, Bild, Video, Audio oder eine Kombination daraus. NutzerInnen suchen heute mit Google Lens, sprechen mit Sprachassistenten wie Alexa oder Google Assistant, schauen sich Videos auf YouTube oder TikTok an und nutzen KI-Chatbots wie Gemini oder ChatGPT, um Antworten zu bekommen. Die klassische Keyword-Optimierung reicht nicht mehr aus. Wer sichtbar bleiben will, muss Inhalte für alle diese Modalitäten optimieren. Aktuelle Zahlen Google Lens verarbeitet 2025 rund 20 Milliarden visuelle Suchanfragen pro Monat, davon 20% Shopping bezogen, vor allem bei Gen Z und Millennials. 159,5 Millionen Menschen in den USA nutzen Voice Search. Weltweit sind es über 20 Prozent aller Internetnutzer, denen pro Quartal. Voice Commerce erreicht 2025 ein Volumen von 31,8 Milliarden US-Dollar. Fast die Hälfte der US-Konsumenten hat schon per Sprache eingekauft. Sieben Prozent aller Google-Suchanfragen triggern bereits AI-Overviews. Tendenz steigend. Unternehmen, die multimodale SEO umsetzen, verzeichnen bis zu 40% mehr organischen Traffic und 78% höhere Conversion Rates im E-Commerce. Visual Search – Bilder als Traffic Booster Visual Search ist längst Mainstream. NutzerInnen fotografieren Produkte, Sehenswürdigkeiten oder Alltagsgegenstände und suchen direkt per Bild. Google Lens, Pinterest Lens und ähnliche Tools erkennen Objekte, Marken, Texte und sogar Stimmungen in Bildern. Best Practices für Visual Search Bilder optimieren, hochwertige, relevante Bilder mit sprechenden Dateinamen, Alttexten und Bildunterschriften versehen. Strukturierte Daten nutzen, Image-Object-Schema und Produktdaten für Bilder implementieren, um in Google Images, Shopping und AI-Overviews aufzutauchen. Mobile First – Bilder für schnelle Ladezeiten und mobile Endgeräte optimieren. Reverse Image Search – Tools wie TinEye oder Google Vision AI nutzen, um zu prüfen, wie und wo eigene Bilder im Netz erscheinen. visuelle Content-Formate, Infografiken, How-to-Bilder, Produktfotos und visuelle FAQs erstellen, die gezielt für visuelle Suchanfragen konzipiert sind. Praxisbeispiel. Junge, die Bäckerei, Kamps, Kopenrad & Wiese und Erlenbacher Backwaren steigerte durch gezielte Bild- und Video-SEO die lokale Sichtbarkeit und die Conversion-Rate im Online-Shop deutlich. Voice Search. die Macht der gesprochenen Suche. Voice Search wächst rasant und ist besonders für lokale, transaktionale und informationsgetriebene Suchanfragen relevant. Sprachassistenten wie Alexa, Siri und Google Assistant liefern Antworten direkt aus Featured Snippets, FAQ-Bereichen und lokalen Brancheneinträgen. Best Practices für Voice Search, Conversational Content, Inhalte in natürlicher Sprache, mit vollständigen Sätzen und Frage-Antwort-Strukturen verfassen. FAQ-Seiten. Häufig gestellte Fragen und Antworten als eigene Seiten oder Abschnitte anlegen. Idealerweise mit FAQ-Schema auszeichnen. Featured Snippets optimieren. Prägnante, direkt beantwortende Absätze für typische Voice Queries bereitstellen. Lokale SEO, Google Business Profile aktuell halten. Öffnungszeiten, Standort und Bewertungen pflegen. 76 Prozent aller Voice Search-Anfragen haben lokalen Bezug. Long-Tail-Keywords auf längere, natürlich formulierte Suchanfragen und W-Fragen optimieren. Praxisbeispiel. B2B-Unternehmen, die voice-optimierte FAQ-Bereiche und How-To-Inhalte bereitstellen, erzielen signifikant mehr Sichtbarkeit in Sprachassistenten und AI-Overviews Video SEO. Sichtbarkeit in der Bewegtbildsuche Video ist der Engagementtreiber schlechthin. YouTube, TikTok, Instagram Reels und YouTube Shorts sind zentrale Kanäle für Reichweite und Markenbildung. Suchmaschinen indexieren Videos zunehmend granular, inklusive Transkripten, Kapiteln und Thumbnails. Best Practices für Video SEO Metadaten optimieren Titel, Beschreibung, Tags und Thumbnails suchmaschinenfreundlich gestalten. Transkripte und Untertitel Videos mit Transkripten und Untertiteln versehen, um Auffindbarkeit und Barrierefreiheit zu erhöhen. Videoschema Video-Object-Markup nutzen, um Videos in Google Search, Discover und AI-Overviews zu platzieren. Short-Form-Video kurze, prägnante Videos für TikTok, YouTube Shorts und Instagram Reels produzieren, Kapitel- und Sprungmarken, Videos in sinnvolle Abschnitte gliedern, um gezielt in Suchergebnissen und AI-Overviews ausgespielt zu werden. Praxisbeispiele Otto.de, Zalando und Stark Deutschland sind hervorragende deutsche Beispiele für den erfolgreichen Einsatz von KI-gestützter Keyword- und Bildoptimierung im Sinne von Visual und Voice Search. Sie zeigen, wie durch die Kombination aus hochwertigem Bildmaterial, automatisierter Verschlagwortung, strukturierten Daten und conversational Content die Sichtbarkeit in Google Search, Google Lens, Voice Search und AI Overviews signifikant gesteigert werden kann. Ganz analog zu internationalen Best Practices. otto.de KI-gestützte Bild- und Keyword-Optimierung. otto.de, einer der größten deutschen E-Commerce-Anbieter, setzt auf automatisierte Build-Tagging-Systeme, hochwertige Produktfotos aus verschiedenen Perspektiven und strukturierte Daten. Durch natürlichsprachliche Produktbeschreibungen und FAQ-Bereiche für Voice Search konnte otto.de die Sichtbarkeit in der organischen Suche insbesondere über Bildersuche, Google Lens und Voice Search, deutlich steigern. Die optimierten Bilder und die bessere Auffindbarkeit in AI-Overviews führten zu mehr Klicks und höheren Abschlussraten im Shop. Zalando – KI-gestützte Bildoptimierung and Visual Search Zalando nutzt KI-basierte Systeme zur automatischen Verschlagwortung und Kategorisierung von Produktbildern. Die Integration von Visual Search ermöglicht es NutzerInnen, ein Foto hochzuladen und ähnliche Produkte im Shop zu finden. Optimierte Alttexte und strukturierte Daten sorgen für mehr organischen Traffic über Bildersuche und Visual Search sowie eine stärkere Präsenz in AI-Overviews und generativen Suchergebnissen. Stark Deutschland – KI-gestützte visuelle Produktsuche Stark Deutschland, einer der Marktführer im Baustoffhandel, hat eine KI-basierte visuelle Produktsuche eingeführt, bei der NutzerInnen ein Foto, zum Beispiel von einer Fliese, hochladen und passende Produkte aus dem Sortiment vorgeschlagen bekommen. Die AI-gestützte Bildanalyse und Integration in E-Commerce und Filialnetz führen zu schnellerer Produktsuche, höherer Kundenzufriedenheit und mehr Sichtbarkeit in der Bildersuche und bei AI-gestützten Suchanfragen. Praxisbeispiel. Junge, die Bäckerei, Kamps, Kopenrad & Wiese und Erlenbacher Backwaren steigerte durch gezielte Bild- und Video-SEO die lokale Sichtbarkeit und die Conversion-Rate im Online-Shop deutlich. Voice Search – die Macht der gesprochenen Suche. Voice Search wächst rasant und ist besonders für lokale, transaktionale und informationsgetriebene Suchanfragen relevant. Sprachassistenten wie Alexa, Siri und Google Assistant liefern Antworten direkt aus Featured Snippets, FAQ-Bereichen und lokalen Brancheneinträgen, Best Practices für Voice Search, Conversational Content, Inhalte in natürlicher Sprache mit vollständigen Sätzen und Frage-Antwort-Strukturen verfassen, FAQ-Seiten, Häufig gestellte Fragen und Antworten als eigene Seiten oder Abschnitte anlegen. Idealerweise mit FAQ Schema auszeichnen. Featured Snippets optimieren. Prägnante, direkt beantwortende Absätze für typische Voice Queries bereitstellen. Lokale SEO, Google Business Profile aktuell halten. Öffnungszeiten, Standort und Bewertungen pflegen. 76% aller Voice Search-Anfragen haben lokalen Bezug. Long-Tail-Keywords auf längere, natürlich formulierte Suchanfragen und W-Fragen optimieren. Praxisbeispiel. B2B-Unternehmen, die voice-optimierte FAQ-Bereiche und How-To-Inhalte bereitstellen, erzielen signifikant mehr Sichtbarkeit in Sprachassistenten und AI-Overviews Video SEO. Sichtbarkeit in der Bewegt-Bild-Suche. Video ist der Engagementtreiber schlechthin. YouTube, TikTok, Instagram Reels und YouTube Shorts sind zentrale Kanäle für Reichweite und Markenbildung. Suchmaschinen indexieren Videos zunehmend granular, inklusive Transkripten, Kapiteln und Thumbnails. Best Practices für Video SEO Metadaten optimieren Titel, Beschreibung, Tags und Thumbnails suchmaschinenfreundlich gestalten Transkripte und Untertitel Videos mit Transkripten und Untertiteln versehen, um Auffindbarkeit und Barrierefreiheit zu erhöhen. Videoschema Video-Object-Markup nutzen, um Videos in Google Search, Discover und AI-Overviews zu platzieren. Short-Form-Video Kurze, prägnante Videos für TikTok YouTube Shorts und Instagram Reels produzieren, Kapitel und Sprungmarken, Videos in sinnvolle Abschnitte gliedern, um gezielt in Suchergebnissen und AI-Overviews ausgespielt zu werden. Praxisbeispiele Otto.de, Zalando und Stark Deutschland sind hervorragende deutsche Beispiele für den erfolgreichen Einsatz von KI-gestützter Keyword- und Bildoptimierung im Sinne von Visual und Voice Search. Sie zeigen, wie durch die Kombination aus hochwertigem Bildmaterial, automatisierter Verschlagwortung, strukturierten Daten und conversational Content die Sichtbarkeit in Google Search, Google Lens, Voice Search und AI Overviews signifikant gesteigert werden kann – ganz analog zu internationalen Best Practices. otto.de KI-gestützte Bild- und Keyword-Optimierung otto.de, einer der größten deutschen E-Commerce-Anbieter, setzt auf automatisierte Build-Tagging-Systeme, hochwertige Produktfotos aus verschiedenen Perspektiven und strukturierte Daten. Durch natürlichsprachliche Produktbeschreibungen und FAQ-Bereiche für Voice Search konnte otto.de die Sichtbarkeit in der organischen Suche, insbesondere über Bildersuche, Google Lens und Voice Search, deutlich steigern. Die optimierten Bilder und die bessere Auffindbarkeit in AI-Overviews führten zu mehr Klicks und höheren Abschlussraten im Shop. Zalando, KI-gestützte Bildoptimierung and Visual Search, Zalando nutzt KI-basierte Systeme zur automatischen Verschlagwortung und Kategorisierung von Produktbildern. Die Integration von Visual Search ermöglicht es NutzerInnen, ein Foto hochzuladen und ähnliche Produkte im Shop zu finden. Optimierte Alttexte und strukturierte Daten sorgen für mehr organischen Traffic über Bildersuche und Visual Search sowie eine stärkere Präsenz in AI-Overviews und generativen Suchergebnissen. Stark Deutschland – KI-gestützte visuelle Produktsuche Stark Deutschland, einer der Marktführer im Baustoffhandel, hat eine KI-basierte visuelle Produktsuche eingeführt, bei der NutzerInnen ein Foto, zum Beispiel von einer Fliese hochladen und passende Produkte aus dem Sortiment vorgeschlagen bekommen. Die AI-gestützte Bildanalyse und Integration in E-Commerce und Filialnetz führen zu schnellerer Produktsuche, höherer Kundenzufriedenheit und mehr Sichtbarkeit in der Bildersuche und bei AI-gestützten Suchanfragen.

Feedback geben

Gefällt der Podcast? Fragen oder Anmerkungen? Dann sende doch einfach eine mail.

Mit einem Klick auf "Nachricht absenden" erklärst Du Dich damit einverstanden, dass wir Deine Daten zum Zwecke der Beantwortung Deiner Anfrage verarbeiten dürfen. Die Verarbeitung und der Versand Deiner Anfrage an uns erfolgt über den Server unseres Podcast-Hosters LetsCast.fm. Eine Weitergabe an Dritte findet nicht statt. Hier kannst Du die Datenschutzerklärung & Widerrufshinweise einsehen.