Multimedia in WhatsApp-Bots nutzen: Senden und Bearbeiten von Videos, Audios und Dokumenten

6.10.2025

In der sich ständig weiterentwickelnden digitalen Kommunikationslandschaft hat sich WhatsApp als leistungsstarkes Tool für Unternehmen zur Kundeninteraktion etabliert. Mit über zwei Milliarden Nutzern weltweit bieten die Bots der Plattform, die auf der WhatsApp Business API basieren, eine nahtlose Möglichkeit zur Automatisierung von Interaktionen. Durch die Einbindung multimedialer Elemente wie Videos, Audiodateien und Dokumente verwandeln sich diese Bots von einfachen Textantwortern in dynamische Tools, die Tutorials, Produktdemonstrationen, Sprachmemos, Verträge und vieles mehr teilen können. Dies verbessert das Benutzererlebnis, steigert das Engagement und optimiert Prozesse wie Kundensupport, Marketing und Vertrieb.

Die von Meta gehostete WhatsApp Cloud API bildet die Grundlage für die Entwicklung dieser Bots. Sie ermöglicht Entwicklern das Senden und Empfangen von Nachrichten, ohne selbst Server verwalten zu müssen, da sie sich automatisch an hohe Volumina anpasst. Im Gegensatz zur lokalen Version vereinfacht die Cloud API den Einrichtungsprozess und bietet Unternehmen nach der Verifizierung kostenlosen Zugriff. Sie unterstützt eine Reihe von Multimediaformaten, sodass Bots umfangreiche Inhalte direkt in Chats bereitstellen können.

Dieser Expertenartikel untersucht die Möglichkeiten zum Senden und Verarbeiten von Multimedia in WhatsApp-Bots. Wir behandeln API-Mechanismen, Codebeispiele, Best Practices, Einschränkungen und Sicherheitsaspekte. Durch die Nutzung dieser Funktionen können Entwickler Bots erstellen, die persönlich und interaktiv wirken und so im Jahr 2025 und darüber hinaus zu besseren Geschäftsergebnissen führen.

‍

Eine Übersicht über die WhatsApp Cloud API für Multimedia in Bots.

Die WhatsApp Cloud API bietet ein robustes Framework für die Integration von Multimedia in Bots. Um sie nutzen zu können, müssen Unternehmen über die Meta Business Suite ein WhatsApp Business-Konto registrieren, API-Zugriff erhalten und Webhooks für Echtzeitbenachrichtigungen einrichten. Die API nutzt RESTful-Endpunkte mit Bearer-Token-Authentifizierung.

Multimedia-Nachrichten lassen sich in die folgenden Kategorien einteilen: Audio (einschließlich Sprache), Dokumente, Bilder, Sticker und Videos. Unterstützte Formate gewährleisten die Kompatibilität zwischen Geräten. Audiodateien können beispielsweise im AAC-, MP3- oder OGG-Format (mit dem OPUS-Codec), Dokumente im PDF-, DOCX- oder XLSX-Format, Bilder im JPEG- oder PNG-Format, Videos im MP4- oder 3GP-Format (mit dem H.264-Codec) und Sticker im WebP-Format vorliegen. Die Größenbeschränkungen variieren: 16 MB für Audio und Video, 5 MB für Bilder, 100 MB für Dokumente und kleiner für Sticker (100–500 KB).

Das Hochladen von Medien erfolgt per POST an /PHONE_NUMBER_ID/media, wodurch eine ID zur Wiederverwendung zurückgegeben wird. Diese ID oder eine öffentliche URL können verwendet werden, um Medien an Nachrichten anzuhängen. Beim Abrufen wird die GET-Methode verwendet, um eine temporäre Download-URL (gültig für fünf Minuten) zusammen mit Details wie dem MIME-Typ und dem SHA-256-Hash abzurufen. Die Medien bleiben 30 Tage lang bestehen, was die Effizienz von Bot-Workflows fördert.

Bots, die mit Frameworks wie Node.js, Python oder PHP erstellt wurden, können in diese API integriert werden. In den Tutorials wird das Einrichten von Webhooks für eingehende Ereignisse und die Verwendung von Bibliotheken wie Flask oder Express zur Bearbeitung von Anfragen erläutert. Dieses Setup ermöglicht es Bots, kontextbezogen zu reagieren; sie können beispielsweise als Antwort auf eine Anfrage ein Video-Tutorial senden.

‍

Senden von Multimedia-Nachrichten

Das Senden von Multimediainhalten über die Cloud-API erfolgt über den Endpunkt POST /PHONE_NUMBER_ID/messages. Die Nutzlast gibt den Typ (z. B. „Video“) an und enthält entweder eine Medien-ID oder einen Link sowie optionale Untertitel (bis zu 1024 Zeichen für Nicht-Audio-/Sticker-Typen).

Für Videos: Verwenden Sie "type": "video" mit einem Objekt, das "id" oder "link" und "caption" enthält. Beispiel cURL:

‍

curl -X POST 'https://graph.facebook.com/v23.0/FROM_PHONE_NUMBER_ID/messages' \ -H 'Autorisierung: Träger ACCESS_TOKEN' \ -H 'Inhaltstyp: application/json' \ -d '{ "messaging_product": "whatsapp", "to": "RECIPIENT_PHONE", "type": "video", "video": { "link": "https://example.com/video.mp4", "caption": "Produktdemo" } }'

‍

Dadurch wird eine Videovorschau mit Wiedergabesteuerung gesendet. Bots können dies für Tutorials oder Werbeaktionen verwenden.

Audionachrichten ("type": "audio") unterstützen Sprachnotizen ohne Untertitel. Beispiel:

‍

curl -X POST 'https://graph.facebook.com/v23.0/FROM_PHONE_NUMBER_ID/messages' \ -H 'Autorisierung: Träger ACCESS_TOKEN' \ -H 'Inhaltstyp: application/json' \ -d '{ "messaging_product": "whatsapp", "to": "RECIPIENT_PHONE", "type": "audio", "audio": { "id": "AUDIO_ID" } }'

‍

Ideal für personalisierte Antworten wie Bestätigungen.

Dokumente ("Typ": "Dokument") enthalten den Dateinamen zur Anzeige. Die Cloud-API enthält keine Beschriftungen, aber Dateinamen helfen bei der Identifizierung. Beispiel:

‍

curl -X POST 'https://graph.facebook.com/v23.0/FROM_PHONE_NUMBER_ID/messages' \ -H 'Autorisierung: Träger ACCESS_TOKEN' \ -H 'Inhaltstyp: application/json' \ -d '{ "messaging_product": "whatsapp", "to": "RECIPIENT_PHONE", "type": "document", "document": { "link": "https://example.com/contract.pdf", "filename": "Contract.pdf" } }'

‍

Dies ermöglicht das Teilen von Rechnungen oder Anleitungen.

Integrieren Sie bei der Bot-Entwicklung Sprachen wie Python. Verwenden Sie die Anforderungsbibliothek:

‍

Importanfragen 
URL = "https://graph.facebook.com/v23.0/PHONE_ID/messages"
 Header = { "Authorization" : "Bearer TOKEN" } Payload = {     "messaging_product" : "whatsapp" ,     "to" : "RECIPIENT" ,     "type" : " image" ,     "image" : { "link" : "https://example.com/image.jpg" , "caption" : "Info" } } Antwort = Anfragen.Post(URL, Header=Header, JSON=Payload)

‍

Dieser modulare Ansatz ermöglicht es Bots, Medien dynamisch basierend auf Benutzereingaben auszuwählen und so die Interaktivität zu verbessern.

Umgang mit eingehenden Multimediadaten

Der Empfang von Multimediadaten erfolgt über Webhooks, die in den App-Einstellungen konfiguriert sind. Wenn ein Benutzer Medien sendet, wird eine POST-Benachrichtigung mit einer JSON-Nutzlast an Ihren Server gesendet.

Das Array „messages“ der Nutzlast enthält Details zum Typ und Medienobjekt. Für Video („type“: „video“):

‍

{   "Objekt" : "WhatsApp-Geschäftskonto" ,   "Eintrag" : [{     "Änderungen" : [{       "Wert" : {         "Nachrichten" : [{           "Typ" : "Video" ,           "Video" : {             "ID" : "VIDEO_ID" ,             "MIME_Typ" : "Video/mp4" ,             "sha256" : "HASH" ,             "Beschriftung" : "Benutzervideo"
 } }] } }] }] }

‍

Bots rufen die Medien mit GET /MEDIA_ID ab und laden sie dann von der URL herunter.

Für Audio:

‍

{   "Nachrichten" : [{     "Typ" : "Audio" ,     "Audio" : {       "ID" : "AUDIO_ID" ,       "MIME_Typ" : "Audio/ogg"
 } }] }

‍

Verarbeiten Sie den Vorgang durch Herunterladen und Analysieren, z. B. durch Transkribieren der Stimme zur Ermittlung der Stimmung.

Dokumente enthalten „Dateiname“ und „Beschriftung“:

‍

{   "messages" : [{     "type" : "document" ,     "document" : {       "id" : "DOC_ID" ,       "mime_type" : "application/pdf" ,       "sha256" : "HASH" ,       "filename" : "File.pdf" ,       "caption" : "Attached Doc"
 } }] }

‍

Verwenden Sie im Code Node.js mit Express:

‍

app.post( '/webhook' , ( req, res ) => {   const message = req.body.entry[ 0 ].changes[ 0 ].value.messages[ 0 ];   if (message.type === 'document' ) {     // Dokument abrufen und verarbeiten
 } res.sendStatus( 200 ); });

‍

Dadurch können Bots Medien speichern, analysieren oder darauf reagieren, beispielsweise durch OCR bei Dokumenten oder durch die Extraktion von Schlüsselwörtern aus Audiodateien.

‍

Best Practices und Einschränkungen

Zu den Best Practices gehören der sparsame Einsatz von Rich Media, um Nutzer nicht zu überfordern, die Personalisierung von Inhalten (z. B. dynamische Videos) und die Verfolgung des Engagements über Webhooks. Integrieren Sie Multimedia mit Text für den Kontext und testen Sie geräteübergreifend. D2C-Marken sollten in Medienbotschaften Dringlichkeitseffekte nutzen, um die Conversions zu steigern.

Einschränkungen: Die Dateigröße ist auf maximal 100 MB begrenzt, mit strengeren Beschränkungen pro Typ. Gesendete Medien können nicht durchgängig bearbeitet werden. Das Caching von Links für 10 Minuten erfordert Abfragezeichenfolgen für Aktualisierungen. Bots müssen Messaging-Richtlinien einhalten, um Sperren zu vermeiden. Außerdem werden Nachrichtenvorlagen außerhalb von 24-Stunden-Fenstern benötigt. Komprimieren Sie Dateien und nutzen Sie Cloud-Speicher für Links.

Legen Sie im Jahr 2025 Wert auf prägnante, mundgerechte Multimediainhalte und sammeln Sie Benutzerfeedback zur Optimierung.

‍

Sicherheitsüberlegungen

Sicherheit steht an erster Stelle. Die API nutzt eine Ende-zu-Ende-Verschlüsselung über das Signal-Protokoll, sodass nur Absender und Empfänger auf Inhalte zugreifen können. Implementieren Sie 2FA, verifizierte Profile und regelmäßige Audits. Beschränken Sie den API-Zugriff, halten Sie die DSGVO ein und überwachen Sie Spam, um Einschränkungen zu vermeiden. Bei Multimedia-Inhalten gewährleistet die Hash-Verifizierung (SHA-256) die Integrität bei Übertragungen.

‍

Abschluss

Multimedia in WhatsApp-Bots verwandelt einfache Automatisierung in ansprechende Erlebnisse. Durch das Versenden über APIs, die Handhabung über Webhooks und die Einhaltung bewährter Methoden können Entwickler skalierbare und sichere Bots erstellen. Mit zunehmender Akzeptanz im Jahr 2025 sind Weiterentwicklungen wie eine verbesserte KI-Integration für die Medienanalyse zu erwarten. Nutzen Sie diese Tools, um engere Kundenbeziehungen zu fördern und Innovationen voranzutreiben.

‍

Lesen Sie mehr Neuigkeiten

Multimedia in WhatsApp-Bots nutzen: Senden und Bearbeiten von Videos, Audios und Dokumenten

Eine Übersicht über die WhatsApp Cloud API für Multimedia in Bots.

Senden von Multimedia-Nachrichten

Umgang mit eingehenden Multimediadaten

Best Practices und Einschränkungen

Sicherheitsüberlegungen

Abschluss

Verwandte Artikel/Nachrichten

NLP-Chatbot für WhatsApp: Open-Source-Beispiele, Architektur und ein praktischer Leitfaden für Anfänger

WhatsApp ↔ Google Sheets-Konnektor für Prototypen: Schnell erstellen, testen und lernen.

Helpdesk-FAQ und Bot-Antworten in WhatsApp integrieren: Kundensupport automatisieren

Kundenbindung stärken: Automatisiertes WhatsApp-Feedback nach Ticketlösung

NLP-Chatbot für WhatsApp: Open-Source-Beispiele, Architektur und ein praktischer Leitfaden für Anfänger

WhatsApp ↔ Google Sheets-Konnektor für Prototypen: Schnell erstellen, testen und lernen.

Helpdesk-FAQ und Bot-Antworten in WhatsApp integrieren: Kundensupport automatisieren

WhatsApp Business API kostenlose Testanfrage