
A/B-Tests für QR-Code-Kampagnen: So messen Agenturen, was wirklich wirkt
Zwei Plakate, zwei Designs: Das misst die Platzierung, nicht das Creative. So testen Agenturen QR-Code-Kampagnen sauber per dynamischem Code und Ziel-Split, mit ehrlicher Signifikanz und einem wiederholbaren Workflow.
ScanKit · Organization
· 17 Min. Lesezeit
So führen Sie einen A/B-Test einer QR-Code-Kampagne durch, ohne sich selbst zu täuschen
Jede Agentur kennt das Meeting, in dem jemand darauf besteht, das blaue Plakat habe besser abgeschnitten als das orangefarbene, während jemand anderes genau das Gegenteil behauptet, und niemand hat die Daten, um die Sache zu klären. Mit A/B-Tests ersetzen Sie diese Diskussion durch Belege. Sie lassen zwei Versionen laufen, messen, welche gewinnt, und behalten den Sieger.
Der Haken bei QR-Codes ist, dass ein gedruckter Code feststeht. Sie können nicht einfach der einen Hälfte Ihres Publikums die eine Version und der anderen Hälfte die andere zeigen, so wie es eine Website tut. Damit ist der naheliegende Test (zwei Plakate mit zwei Designs) zugleich der Test, bei dem am leichtesten etwas schiefgeht. Dieser Leitfaden zeigt die Testmethoden, die tatsächlich ein belastbares Ergebnis liefern, die Methoden, die nur wie Tests aussehen, und einen Arbeitsablauf, den Sie bei jeder Kundenkampagne wiederverwenden können.
Er setzt voraus, dass Sie bereits ein Tracking eingerichtet haben. Falls nicht, erledigen Sie das zuerst: Ein Code, der nichts meldet, lässt sich nicht testen. Die ergänzenden Beiträge zum Tracking von QR-Scans in Google Analytics 4 und dazu, welche Scan-Kennzahlen wirklich zählen, bilden das Fundament, auf dem dieser Beitrag aufbaut.
Was ein A/B-Test wirklich bedeutet, und die eine Regel, die alle brechen
Ein A/B-Test vergleicht zwei Versionen einer Sache, die sich in genau einem Punkt unterscheiden, zeigt sie vergleichbaren Zielgruppen zur selben Zeit und entscheidet anhand der Zahlen, welche besser abschneidet. Optimizely betont in seiner eigenen Definition die beiden tragenden Begriffe: Die Varianten werden "zufällig" ausgespielt, und der Sieger wird durch "statistische Analyse" bestimmt, nicht nach Augenmaß.
Daraus folgen zwei Grundsätze, und beide werden ständig verletzt.
Erstens: Verändern Sie immer nur eine Variable. Wenn Version B eine neue Überschrift und ein neues Bild und ein neues Angebot hat und gewinnt, haben Sie nichts gelernt, das Sie wiederverwenden können, denn Sie wissen nicht, welche Änderung den Ausschlag gegeben hat. Testen Sie die Überschrift oder das Bild oder das Angebot. Eine Sache.
Zweitens: Legen Sie vor dem Start eine einzige primäre Kennzahl fest und machen Sie daraus eine Rate, die an Ihr Ziel gekoppelt ist, statt eine rohe Mengengröße. "Mehr Scans" ist eine verlockende und zugleich irreführende Kennzahl, denn die Anzahl der Scans misst vor allem, wo Sie den Code platziert haben und wie belebt der Ort war, nicht, ob das Creative jemanden überzeugt hat. Die ehrliche Kennzahl ist eine Conversion-Rate: Welcher Anteil der Menschen, die gescannt haben, hat die gewünschte Aktion abgeschlossen? Das ist die Zahl, die eine Variante tatsächlich bewegen kann.
Warum ein gedruckter QR-Code den Lehrbuchtest sprengt
Hier liegt das Problem, das QR-Tests von Web-Tests unterscheidet. Ein gültiger A/B-Test braucht eine zufällige Zuordnung: Jede Person hat die gleiche Chance, eine der beiden Varianten zu sehen, sodass die beiden Gruppen ansonsten identisch sind. Eine Website erledigt das serverseitig bei jedem Besuch. Ein gedrucktes Plakat kann das nicht. Wer vorbeigeht, sieht das, was gedruckt wurde.
In dem Moment, in dem Sie zwei Designs testen, indem Sie Plakat A an einen Ort und Plakat B an einen anderen hängen, vermengen Sie das Design mit der Platzierung. Ort B gewinnt vielleicht, weil sein Creative besser war, oder weil es auf Augenhöhe neben einer Warteschlange hing, während A über einer Tür angebracht war, unter der niemand wartete. Passantenfrequenz, Verweildauer, Beleuchtung, Höhe, Wetter und das lokale Publikum unterscheiden sich zwischen zwei physischen Orten, und der Test kann keinen dieser Faktoren von dem trennen, was Sie eigentlich messen wollten. Sie erhalten eine Zahl, aber sie bedeutet nicht das, was Sie glauben.
Das ist kein Grund, das Testen von QR-Kampagnen aufzugeben. Es ist ein Grund, den Teil zu testen, den Sie randomisieren können, und ehrlich mit dem Teil umzugehen, den Sie nicht randomisieren können.
Die saubere Methode: Testen Sie das Ziel, nicht den Code
Der Durchbruch besteht darin, nicht länger das physische Artefakt testen zu wollen, sondern stattdessen das, was nach dem Scan passiert. Bei einem dynamischen QR-Code codiert der gedruckte Code nur eine kurze Weiterleitungs-URL. Das eigentliche Ziel liegt auf dem Server und steht unter Ihrer Kontrolle. Genau dort wird ein sauberer Test möglich.
Der Goldstandard ist die serverseitige Traffic-Aufteilung: ein einziger gedruckter Code, dessen Weiterleitung einen zufälligen Anteil der Scans auf Landingpage A und den Rest auf Landingpage B schickt. Weil derselbe Strom an Scannenden im Moment der Weiterleitung aufgeteilt wird, sind die beiden Gruppen wirklich zufällig zusammengesetzt und werden zur selben Zeit erreicht. Dies ist der einzige QR-A/B-Test, der die Lehrbuchbedingungen erfüllt, und der, zu dem Sie greifen sollten, sobald Ihr Werkzeug ihn unterstützt.

Die Abbildung oben zeigt den Aufbau:
- Ein dynamischer Code, derselbe gedruckte Code für alle, sodass die Platzierung für beide Varianten identisch ist.
- Die Weiterleitung, an der der Scan-Strom auf die beiden Ziele aufgeteilt wird.
- Zwei Ziele, die sich in einer Sache unterscheiden: Seite A und Seite B.
- Die Messung, bei der Sie die Conversion-Rate beider vergleichen und den Sieger behalten.
Versehen Sie jedes Ziel mit einem eigenen utm_content-Wert, damit Google Analytics die beiden Varianten in getrennten Zeilen ausweist. Verwenden Sie einen aussagekräftigen Wert wie hero-offer gegenüber hero-testimonial, kein nacktes "a" und "b", das Sie in drei Wochen nicht wiedererkennen. Der Parameter utm_content ist der übliche Ort, um A/B-Varianten zu kennzeichnen, aber denken Sie daran: Er trennt die Varianten nur in Ihren Berichten; die Aufteilung selbst geschieht in der Weiterleitung.
Eine Anmerkung zur Ehrlichkeit gegenüber den eigenen Werkzeugen. Nicht jede Einrichtung eines dynamischen Codes nimmt eine automatische Zufallsaufteilung vor. ScanKit etwa richtet jeden Code auf ein einziges Ziel aus, das Sie kontrollieren und jederzeit bearbeiten können. Das liefert Ihnen keinen Zufallssplitter mit einem Klick, aber etwas, das für Offline-Kampagnen fast ebenso nützlich ist: die Möglichkeit, das Ziel sofort auszutauschen und einen Sieger ohne Neudruck auszurollen, und genau darauf bauen die nächsten beiden Methoden auf.
Wenn Sie nicht aufteilen können: sequenzielle und platzierungsgleiche Tests
Wenn Sie den Traffic eines einzelnen Codes nicht zufällig aufteilen können, haben Sie zwei Notlösungen. Beide sind schwächer, und es lohnt sich, genau zu wissen, inwiefern.
Ein sequenzieller Test lässt Version A für einen Zeitraum laufen, schaltet dann das Ziel desselben Codes für einen gleich langen Zeitraum auf Version B um und vergleicht. Weil das Ziel eines dynamischen Codes bearbeitbar ist, braucht das keinen Neudruck, Sie ändern einfach, wohin der Code verweist, wenn die zweite Phase beginnt. Die Schwäche ist die Zeit selbst: Alles, was sich zwischen den beiden Zeiträumen verändert hat, fließt nun in das Ergebnis ein. Eine Woche mit Gehaltszahlungen, eine Hitzewelle, ein Feiertag, die Aktion eines Wettbewerbers, das Verhältnis von Werktagen zu Wochenenden, all das verzerrt den Vergleich. Lassen Sie jede Phase über volle Wochen laufen, vermeiden Sie es, einen Feiertag zu überspannen, und behandeln Sie das Ergebnis als starken Hinweis, nicht als Beweis.
Ein platzierungsgleicher Test verwendet zwei verschiedene gedruckte Codes an zwei Orten, die jedoch so gewählt sind, dass die Orte einander so ähnlich wie möglich sind: dasselbe Filiallayout, gespiegelte Aufbauten, vergleichbare Passantenfrequenz. Um die verbleibende Platzierungsverzerrung auszugleichen, tauschen Sie die Varianten zur Hälfte des Tests zwischen den Orten, sodass jedes Design gleich viel Zeit an jedem Platz verbringt. Das ist besser als ein naiver Zwei-Plakate-Test, bleibt aber quasi-experimentell. Berichten Sie es als richtungsweisend, nicht als endgültig.
Stichprobengröße und Signifikanz, ohne Drumherumreden
Hier verlangt das Offline-Testen Ehrlichkeit, denn die Zahlen sind meist klein. Die statistische Signifikanz, üblicherweise auf ein Konfidenzniveau von 95 Prozent festgelegt, ist die Schwelle, die besagt, dass ein Unterschied wahrscheinlich nicht dem Zufall geschuldet ist. Sie legen diese Schwelle und die dafür nötige Stichprobengröße vor dem Start des Tests fest.
Die mit Abstand häufigste Art, sich selbst zu belügen, ist das Spähen. Wenn Sie den Test beobachten und in dem Moment einen Sieger ausrufen, in dem er erstmals die 95 Prozent überschreitet, haben Sie keinen 95-Prozent-Test durchgeführt. Die bekannte Analyse von Evan Miller zeigt, dass das Anhalten im ersten signifikanten Moment die tatsächliche Falsch-Positiv-Rate auf rund 26 Prozent treibt, mehr als das Fünffache dessen, was Sie angenommen hatten. Die Disziplin ist langweilig, aber entscheidend: Legen Sie Stichprobengröße und Enddatum im Voraus fest und lesen Sie das Ergebnis erst ab, wenn Sie dort angekommen sind.
Eine günstige Plausibilitätsprüfung ist der A/A-Test: Lassen Sie zwei identische Varianten gegeneinander antreten. Bei einer Schwelle von 95 Prozent sollte ein korrekt arbeitender Aufbau nur etwa in 5 Prozent der Fälle einen "Sieger" ausrufen, rein zufällig. Wenn Ihr Werkzeug deutlich häufiger einen Sieger krönt, stimmt etwas nicht, bevor Sie überhaupt etwas Echtes getestet haben.
Nun der unangenehme Teil. Die meisten gedruckten QR-Kampagnen erzeugen schlicht nicht genug Scans, geschweige denn genug Conversions, um eine Signifikanz von 95 Prozent zu erreichen. Das ist kein Versagen Ihrer Methode, sondern die Realität des Offline-Volumens. Wenn das der Fall ist, sagen Sie es. Legen Sie die Stichprobengröße im Voraus fest, führen Sie den Test ehrlich durch und präsentieren Sie ein Ergebnis bei geringem Volumen als richtungsweisenden Beleg, statt es als statistisch bewiesen aufzuhübschen. Korrekt und bescheiden schlägt beeindruckend und falsch, und Kunden erinnern sich daran, welches von beidem Sie ihnen geliefert haben. Widerstehen Sie der Versuchung, ein hübsches "das hat die Conversions um 23 Prozent gesteigert" zu zitieren, wenn die Stichprobe das nicht hergibt.
Die Störfaktoren, die QR-Tests still und leise ruinieren
Selbst eine saubere Aufteilung kann durch das verdorben werden, was rundherum passiert. Vier, vor denen Sie auf der Hut sein sollten:
- Neuheitseffekt. Ein neues Design kann die Ergebnisse allein deshalb anheben, weil es neu ist, ein Effekt, der verblasst, sobald sich die Menschen daran gewöhnen. Lassen Sie den Test lange genug laufen, um über diesen Ausschlag hinauszublicken, üblicherweise mehrere Wochen, und beobachten Sie den Sieger noch ein paar Wochen, nachdem Sie ihn ausgerollt haben, um zu bestätigen, dass der Zugewinn Bestand hat.
- Saisonalität und Wochentag. Der Verkehr an einem Samstag ist nicht dasselbe Publikum wie an einem Dienstag. Lassen Sie den Test in Vielfachen ganzer Wochen laufen, damit das Verhältnis von Werktagen zu Wochenenden ausgeglichen ist, und vermeiden Sie Zeitfenster, die einen Feiertag oder eine Sale-Aktion überspannen.
- Platzierungsunterschiede. Oben behandelt und wiederholenswert, weil es die QR-spezifische Falle ist: Wenn zwei Codes an zwei verschiedenen Orten hängen, messen Sie womöglich den Ort, nicht das Creative.
- Zu viele Tests gleichzeitig. Sich überlappende Tests beeinflussen einander und trüben die Ergebnisse. Isolieren Sie sie oder staffeln Sie sie zeitlich, damit jedes Ergebnis genau eine Sache bedeutet.
Ein wiederholbarer A/B-Arbeitsablauf für Kundenkampagnen
Setzen Sie alles zu einem Vorgehen zusammen, das Sie jedes Mal gleich durchführen können, im eigenen Workspace jedes Kunden:
- Formulieren Sie die Hypothese. "Wenn wir die Überschrift der Landingpage so ändern, dass sie mit dem Rabatt einsteigt, steigen die Anmeldungen, weil das Angebot der Grund war, aus dem die Menschen gescannt haben." Eine echte Vorhersage, mit einer Begründung.
- Verändern Sie eine Variable. Bauen Sie Seite A und Seite B, die sich in dieser einen Sache und in nichts sonst unterscheiden.
- Wählen Sie die primäre Kennzahl. Eine Conversion-Rate, jetzt festgelegt, nicht erst, nachdem Sie die Daten gesehen haben.
- Wählen Sie die Aufteilungsmethode. Eine randomisierte Zielaufteilung, wenn Ihr Werkzeug es erlaubt; andernfalls ein sequenzieller oder platzierungsgleicher Test, dessen Grenzen Sie im Briefing benennen.
- Legen Sie Stichprobengröße und Laufzeit im Voraus fest. Ganze Wochen, lange genug, um die Neuheit zu überdauern, und kein Spähen.
- Lesen Sie das Ergebnis einmal, am Ende. Gegen Ihre vorab festgelegte Konfidenzschwelle. Seien Sie ehrlich, wenn das Volumen nur eine richtungsweisende Aussage hergibt.
- Rollen Sie den Sieger aus. Weil es ein dynamischer Code ist, richten Sie das aktive Ziel ohne Neudruck auf die Siegerseite aus und beobachten Sie es dann ein paar Wochen lang, um zu bestätigen, dass der Zugewinn echt ist und nicht der Neuheit geschuldet.
Der Nutzen summiert sich. Jeder Test, der eine Variable verändert, lehrt Sie etwas Wiederverwendbares über das Publikum dieses Kunden, und das dynamische Ziel bedeutet, dass das Handeln nach dieser Erkenntnis nichts an Druckkosten verursacht. Was Sie sein lassen, ist genauso wertvoll: das Jagen nach den Dingen, die sich anfühlen, als müssten sie funktionieren. Falls Sie immer noch versuchen, die rohen Scans anzuheben, passt der ehrliche Leitfaden zum Gewinnen von mehr Scans gut zu diesem hier, denn ein Test sagt Ihnen, welche dieser Taktiken die Zahlen Ihres Kunden tatsächlich bewegt hat.
Häufig gestellte Fragen
Kann man einen gedruckten QR-Code per A/B-Test testen?
Ja, aber nicht, indem man den gedruckten Code selbst testet. Ein gedruckter Code steht fest, also können Sie nicht zufällig zuordnen, welche Version eine vorbeigehende Person zu sehen bekommt. Der verlässliche Ansatz ist, einen dynamischen Code zu verwenden und das Ziel dahinter zu testen, indem die Scans serverseitig auf zwei Landingpages aufgeteilt werden. Kann Ihr Werkzeug den Traffic nicht aufteilen, weichen Sie auf sequenzielle oder platzierungsgleiche Tests aus, die schwächer, aber dennoch nützlich sind, solange Sie sie als richtungsweisend behandeln.
Was sollte man bei einer QR-Kampagne per A/B-Test testen?
Testen Sie das Ziel, denn es ist der Teil, den Sie nach dem Druck noch ändern können, und der Teil, der am meisten überzeugt. Gute Kandidaten sind die Überschrift der Landingpage, das Angebot, der Call-to-Action und das Seitenlayout. Verändern Sie immer nur eines davon zugleich. Das Design des physischen Plakats über verschiedene Orte hinweg zu testen, ist unzuverlässig, weil Platzierung und Passantenfrequenz das Ergebnis verzerren.
Welche Kennzahl sollte ich zur Bewertung eines QR-A/B-Tests verwenden?
Verwenden Sie eine Conversion-Rate: den Anteil der Menschen, die gescannt und danach Ihr Ziel abgeschlossen haben, etwa eine Anmeldung oder einen Kauf. Beurteilen Sie nicht anhand der rohen Scan-Anzahl, denn Scans spiegeln vor allem wider, wo der Code platziert ist und wie belebt der Ort ist, nicht, ob die Variante funktioniert hat. Legen Sie vor dem Testbeginn eine einzige primäre Kennzahl fest.
Wie lange sollte ein A/B-Test eines QR-Codes laufen?
Lange genug, um Ihre vorab festgelegte Stichprobengröße zu erreichen, in Vielfachen ganzer Wochen, damit das Verhältnis von Werktagen zu Wochenenden ausgeglichen ist, und lange genug, um den Neuheitseffekt zu überdauern, was oft mehrere Wochen bedeutet. Legen Sie das Enddatum im Voraus fest und lesen Sie das Ergebnis erst ab, wenn Sie es erreichen, statt in dem Moment abzubrechen, in dem es nach einem Sieger aussieht.
Wie viele Scans brauche ich für ein statistisch signifikantes Ergebnis?
Es gibt keine einzelne Zahl; sie hängt von Ihrer Ausgangs-Conversion-Rate und der Größe des Unterschieds ab, den Sie erkennen wollen. Verwenden Sie daher vor dem Start einen Stichprobengrößen-Rechner. Seien Sie realistisch: Die meisten gedruckten Kampagnen erzeugen nicht genug Scans, um eine Signifikanz von 95 Prozent zu erreichen. Planen Sie also mit einem richtungsweisenden Ergebnis und sagen Sie das ehrlich, statt zu viel zu behaupten.
Brauche ich einen dynamischen QR-Code, um einen A/B-Test durchzuführen?
In der Praxis ja. Das Ziel eines statischen Codes ist im Druck fest verankert, sodass Sie den Traffic weder aufteilen noch eine unterlegene Variante austauschen oder einen Sieger ohne Neudruck ausrollen können. Das bearbeitbare Ziel eines dynamischen Codes ist das, was jede hier beschriebene Methode überhaupt möglich macht, von der serverseitigen Aufteilung über den sequenziellen Test bis zum sofortigen Ausrollen eines Siegers.
Wofür wird utm_content beim QR-Testen verwendet?
Es kennzeichnet jede Variante, damit Google Analytics sie in getrennten Zeilen ausweist. Geben Sie jeder Version einen aussagekräftigen Wert, etwa hero-offer und hero-testimonial, statt eines nackten "a" und "b". Es trennt die Varianten in Ihrem Reporting, teilt aber den Traffic nicht selbst auf; die Aufteilung geschieht in der Weiterleitung.
Was ist ein A/A-Test und warum sollte ich einen durchführen?
Ein A/A-Test lässt zwei identische Varianten gegeneinander antreten. Da sie gleich sind, sollte keine gewinnen, und doch wird ein gesunder Aufbau bei einem Konfidenzniveau von 95 Prozent in etwa 5 Prozent der Fälle rein zufällig einen falschen "Sieger" melden. Wenn Ihr Werkzeug deutlich häufiger einen Sieger ausruft, ist der Aufbau oder das Werkzeug fehlerhaft, und es ist besser, das zu erfahren, bevor Sie sich bei einem echten Test darauf verlassen.
Die Kurzfassung
Ein gedruckter QR-Code lässt sich nicht so randomisieren wie eine Webseite, deshalb misst der naive Test "zwei Plakate, zwei Designs" ebenso sehr die Platzierung wie das Creative. Testen Sie stattdessen den Teil, den Sie kontrollieren können: das Ziel hinter einem dynamischen Code.
Die saubere Methode ist ein einziger Code, dessen Weiterleitung die Scans auf Landingpage A und Seite B aufteilt, mit einem eigenen utm_content auf jeder, damit die Analyse sie auseinanderhalten kann. Wenn Sie den Traffic nicht aufteilen können, führen Sie einen sequenziellen oder platzierungsgleichen Test durch und berichten Sie ihn als richtungsweisend. Beurteilen Sie anhand einer Conversion-Rate, nicht anhand roher Scans. Legen Sie Stichprobengröße und Enddatum im Voraus fest, spähen Sie niemals und rufen Sie keinen Sieger zu früh aus, und bleiben Sie ehrlich, wenn das Offline-Volumen zu klein ist, um Signifikanz zu beweisen.
Rollen Sie den Sieger dann aus, indem Sie das dynamische Ziel ohne Neudruck umlenken, und beobachten Sie ihn zwei Wochen lang, um sicherzugehen, dass der Zugewinn echt ist. Formulieren Sie die Hypothese, verändern Sie eine Sache, messen Sie eine Rate, und lassen Sie die Daten die Diskussion klären, wenn der Raum sich das nächste Mal über Blau gegen Orange streitet.
Mehr lesen

· 17 Min. Lesezeit
QR-Code Landingpage: Was nach dem Scan über die Kampagne entscheidet
Der Scan ist nur die halbe Kampagne. Was eine QR-Code Landingpage leisten muss: Message Match zum Printmaterial, Ladezeit innerhalb der Core Web Vitals, ein Call-to-Action in Daumenreichweite und ein Funnel, der Conversions belegt statt nur Scans zu zählen.
Weiterlesen
· 18 Min. Lesezeit
Warum scannt mein QR-Code nicht? 3 Hürden zur schnellen Fehlersuche
QR-Code scannt nicht? Fast immer steckt eine von drei Ursachen dahinter: das gedruckte Muster, der Link oder das Ziel. Dieser Leitfaden grenzt den Fehler in drei Schritten ein und zeigt, was sich ohne Nachdruck beheben lässt. Fuer Agenturen mit gedruckten QR-Kampagnen.
Weiterlesen