Dezember 2021
Was ist Usability? Usability ist folgendermaßen definiert: DIN EN ISO 9241-11"Usability bezeichnet das Ausmaß, in dem ...
Dieser Blogbeitrag ist der dritte Teil meiner Reihe zu Usability. Die ersten beiden Teile sind nicht Voraussetzung, um diesen Teil zu verstehen, tragen aber zum Verständnis bei.
Die ersten beiden Teile findest du unter:
Um zu verstehen, wie du die Usability deiner Webseite testen kannst, müssen wir erstmal definieren, was es bedeutet eine Webseite zu testen oder zu evaluieren.
Unter Evaluation versteht man laut der Deutschen Gesellschaft für Evaluation (DeGEval) „die systematische Untersuchung des Nutzens oder Wertes eines Gegenstandes." Gegenstände können zum Beispiel Programme, Projekte, Produkte, Maßnahmen, Leistungen, Organisationen, Technologien oder Forschung sein. Wir befassen uns in diesem Beitrag speziell mit der Evaluation von Software, besonders von Webseiten.
Die gewonnenen Ergebnisse der Evaluation müssen nachvollziehbar ausgewertet werden. Die Evaluation einer Software dient dazu die Usability einer Benutzerschnittstelle zu testen und zu verbessern.
Bei der Evaluation einer Software sollten folgende drei Gütekriterien beachtet werden:
Es gibt verschiedene Arten von Evaluationen, die gegenübergestellt werden können:
Die formative (gestaltende) Evaluation versucht bereits möglichst früh, während dem Entwicklungszyklus, anhand von Prototypen, so viele Usability-Probleme wie möglich aufzudecken und Verbesserungspunkte zu identifizieren. Bei dieser Evaluation handelt es sich hauptsächlich um qualitative Daten.
Qualitative & quantitative Daten
Qualitative Daten, manchmal auch weiche Daten genannt, umfassen Informationen, die sich nicht so einfach auf numerische Daten reduzieren lassen und meist recht locker strukturiert sind. Qualitative Daten sind zum Beispiel Umfrage- und Interviewfragen mit Freifeldantworten.
Quantitative Daten, oder auch harte Daten genannt, bestehen aus traditionellen Datentypen, die in nummerischen Werten ausgedrückt werden. Das können zum Beispiel Fragebögen sein, bei diesen man eine Anforderung anhand einer Skala bewerten soll. Quantitative Daten können später statistisch ausgewertet werden.
Die summative (abschließende) Evaluation wird erst gegen Ende der Entwicklungsphase durchgeführt und prüft, ob die gesetzten Usability-Ziele auch erreicht wurden. Bei dieser Art der Evaluation wird hauptsächlich mit quantitativen Daten gearbeitet.
Die komparative Evaluation vergleicht die Usability unter möglichst identischen Rahmenbedingungen mit verschiedenen Lösungsvarianten desselben Produktes miteinander. Dabei werden meist quantitative Daten erhoben.
Die kompetitive Evaluation dagegen vergleicht die Usability des eigenen Produktes mit der Usability mehrerer Produkte von Mitbewerbern. Hier werden normalerweise quantitative messbare Daten erhoben.
Warum sollte ich meine Software evaluieren?
Schweregrad von Usability-Fehlern
Usability-Fehler können in mehrere Schweregrade unterteilt werden, die unterschiedlich priorisiert werden müssen:
Grundlegend kann man die Evaluationsmethoden in zwei große Überkategorien einteilen:
Analytische Evaluation
Bei der Analytischen Evaluation, oder auch Expertentests genannt, untersuchen Usability-Experten potenzielle Usability-Probleme anhand von Regeln und Normen. Diese Regeln basieren auf Statistiken und Erfahrungen. Leider gibt eine reine Analyse von Usability-Normen keine Aussagekraft darüber, wie die tatsächlichen Usability-Probleme aussehen. Dies erfährt man nur, wenn man Tests mit den wirklichen Nutzern macht. Ein Vorteil ist, dass gerade, weil keine Nutzer einbezogen werden müssen, die Durchführung von Expertentests meist sehr schnell vonstattengeht.
Usability-Experte
Ein Usability-Experte ist eine zertifizierte Person, die weiß, wie digitale Inhalte wahrgenommen werden, die Gestaltungsprinzipien für Softwareprodukte beherrscht, einen Überblick über die vorhandenen Standards, Normen und Regelungen hat und Usability-Tests planen und durchführen kann.
Empirische Evaluation
Bei der Empirischen Evaluation, oder auch Nutzertests genannt, werden den Teilnehmern der Evaluation realistische Aufgaben gestellt und es wird beobachtet, wie gut diese mit dem Prototyp oder fertigen Produkt gelöst werden können. Im Gegensatz zu den Expertentests basiert hier die Evaluation auf den tatsächlichen Aussagen und Handlungen der Probanden und es können somit reale Usability-Probleme gefunden werden. Leider ist eine Befragung von Nutzern immer aufwendig.
Einige mögliche analytische Evaluationsmethoden
Heuristische Evaluation
Usability-Experten prüfen bei der Heuristischen Evaluation anhand einer Liste von Heuristiken die Benutzerschnittstelle auf mögliche Usability-Probleme. Ein Beispiel für Heuristiken kann die Norm 9241-110 sein, in dieser die Interaktionsprinzipien erläutert werden. Gerade die Normenreihe ISO 9241 ist sehr wichtig, wenn es darum geht Usability-Probleme aufzudecken.
Vormerken kann man sich an dieser Stelle besonders folgende Normenteile:
Hier bietet sich besonders an, die Evaluation mit einem Nutzertest zu kombinieren, um sowohl den Hintergrund durch die Normen abzudecken, aber auch Benutzer einzubeziehen.
Cognitive Walkthrough
Die Usability-Experten versetzen sich beim Cognitive Walkthrough in die Rolle eines Benutzers und spielen anhand eines Prototypen einen typischen Handlungsablauf durch. Leider hat diese Methode den Nachteil, dass die Usability-Experten lediglich erraten können, wie sich ein Benutzer in einer bestimmten Situation verhalten wird. Der Usability-Experte muss sehr gut die Arbeitsabläufe der Nutzer erkennen und nachahmen können.
GOMS
GOMS steht für Goals, Operations, Methods und Selection Rules (dt. Ziele, Operationen, Methoden, Auswahlregeln) und beschreibt eine Methode zur Vorhersage der Zeit, die ein Nutzer benötigt, um ein gewisses Ziel zu erreichen. Dabei wird die Interaktion in elementare Arbeitsschritte zum Ziel zerlegt, damit diese dann empirisch ermittelt werden kann. Zum Beispiel könnte man ermitteln, dass der Benutzer 1,1 Sekunden benötigen wird, um die Maus auf einem bestimmten Feld zu positionieren. GOMS ist besonders geeignet, wenn die Effizienz eines Systems an erster Stelle steht.
Eine bekannte vereinfachte Methode von GOMS, die oft verwendet wird, ist das Keystroke Level Model (KLM). Bei diesem wird sich rein auf die Ziele, Operationen und Methoden beschränkt und mögliche Fehler und Ermüdung werden außen vor gelassen.
Hallway-Testing
Das Hallway-Testing ist die einfachste Methode, um Nutzertests durchzuführen. Dabei wird ein Arbeitskollege oder Büronachbar gefragt, ob er Zeit hätte, bei einem Nutzertest mitzumachen. Diesem wird dann ein Prototyp vorgelegt und eine bestimmte Aufgabe gestellt. Der Arbeitskollege soll dann diese Aufgabe laut mitdenkend lösen, ohne, dass Tipps gegeben werden.
Thinking-Aloud-Verfahren
Das Thinking-Aloud-Verfahren („Methode des lauten Denkens") dient der Verbalisierung mentaler Prozesse bei der Bearbeitung spezifischer Aufgaben beim Evaluieren von Benutzerschnittstellen. Durch die Beobachtung des Verhaltens und der verbalisierten Gedanken können die kognitiven Prozesse der Probanden anschaulich dargestellt werden. Gerade Unsicherheiten an einer bestimmten Stelle der Aufgabenstellung werden durch dieses Verfahren gut erkannt.
Plurastic Walkthrough
Der Plurastic Walkthrough kombiniert die Vorteile von Nutzertests und Expertentests, indem hier Benutzer und Usability-Experten zusammen in Form eines Workshops anhand von Prototypen Szenarien durchspielen. Zuerst läuft dies ähnlich wie beim Hallway-Testing ab: Die Nutzer bekommen Aufgaben gestellt, die sie selbstständig lösen sollen. Im Anschluss erklären dann die Usability-Experten den Nutzern, wie die „Musterlösung" ausgesehen haben sollte. Wichtig ist hier zu beachten, dass es bei Prototypen oft nicht die eine richtige Lösung gibt.
Durch das gemeinsame Durchgehen von Nutzer und Usability-Experten lernen beide Seiten voneinander, wie Nutzer die Vorgehensweise verstehen und wie die Vorgehensweise von den Usability-Experten ursprünglich gemeint war.
Formaler Usability-Test
Der Formale Usability-Test findet meistens in einem Usability-Labor statt, um einen speziellen Versuchsaufbau sicherzustellen. Der Proband sitzt vor einem Bildschirm mit einem Blatt mit Aufgabenstellungen allein in einem Raum. Er wird durch ein einseitig durchsichtiges Fenster des Nebenraumes und/oder durch Kameras beobachtet. Dies soll sicherstellen, dass keine Kommunikation zwischen dem Benutzer und dem Beobachter stattfindet und der Proband möglichst ungestört arbeiten kann. Auch hier wird die Thinking-Aloud-Technik angewendet.
Usability-Befragung
Bei der Usability-Befragung werden Nutzern mit Hilfe von Fragebögen voll- oder teilstandardisierte Fragen zu beispielsweise „Aufgabenangemessenheit" oder „Fehlertoleranz" der vorliegenden Software gestellt.
Voll- und teilstandardisiert
Bei vollstandardisierten Fragebögen werden nur Fragen gestellt, die mit einer Ratingskala bewertet werden. Anhand dieser Skala kann eine Punktzahl errechnet werden, die statistisch später ausgewertet werden kann und dadurch Vergleiche mit vorherigen Tests oder Normdaten erlauben. Teilstandardisierte Fragebögen ermöglichen es zusätzlich zu Ratingskalen auch offene Antworten zu geben. So können auch Details über Hintergründe einer Bewertung gesammelt werden.
Einen Beispielfragebogen kannst du hier finden.
A/B-Tests
A/B-Tests werden durchgeführt, indem die Teilnehmer in zwei Untergruppen unterteilt werden. Jede Gruppe bekommt eine andere Variante der Benutzerschnittstelle gezeigt. Oft werden die Teilnehmer in Untergruppen eingeteilt, ohne, dass sie sich bewusst sind, dass sie eine andere Variante als andere Teilnehmer sehen. Anschließend wird durch Befragung oder Konversationsrate verglichen, welche Variante erfolgreicher war.
Idealerweise unterscheiden sich die beiden Varianten nur durch die Gestaltung eines Elementes, damit nachvollzogen werden kann, welches Element verantwortlich für die Präferenz einer bestimmten Variante ist.
Eine ähnliche Methode wie A/B-Tests sind multivariate Tests, bei diesen im Gegensatz zu A/B-Tests nicht nur zwei Varianten gegenübergestellt werden, sondern mehrere. Das hat den Vorteil, dass gleich mehrere Varianten ausprobiert werden können, nur leider kann mit steigender Variantenzahl immer weniger nachvollzogen werden, was die eigentliche Ursache für die Wahl der Variante war.
1. Ziel und Zweck festlegen
Zuerst werden das Ziel, der Zweck, die Zielgruppe und Fragestellungen, die untersucht werden sollen, festgelegt. Ein Zweck kann zum Beispiel sein, dass geprüft werden soll, ob eine neue Funktion verstanden wird oder ob eine maximale Bearbeitungsdauer eingehalten werden kann.
2. Untersuchungsdesign entwerfen
Passend zur zuvor festgelegten Problemstellung, dem Projektstand, den vorhandenen Ressourcen und der verfügbaren Zeit der Evaluation, wird ein Untersuchungsdesign entworfen in dem ein methodisches Vorgehen, ein Zeitplan und die geplanten Teilnehmer festgelegt sind. Außerdem wird festgelegt, welche Evaluationsmethode verwendet wird.
3. Teilnehmer rekrutieren
Beim Rekrutieren der Teilnehmer muss darauf geachtet werden, dass möglichst alle Benutzertypen, die Teil der Zielgruppe sind, vertreten sind. Bei qualitativen Evaluationen reicht es meistens schon 5-10 Personen zu befragen, bei quantitativen Evaluationen sollte die Teilnehmerzahl hoch genug sein, dass statistische Schlussfolgerungen gezogen werden können.
4. Evaluation vorbereiten
Bevor die Evaluation beginnen kann, muss geschaut werden, ob ein Prototyp oder eine fertige Software vorhanden ist, anhand dieser getestet werden kann. Außerdem sollten bereits Aufgabenstellungen und ein Szenario, das die Probanden durchlaufen sollen, festgelegt werden. Auch sollte bereits an dieser Stelle überlegt werden, wie die Evaluation dokumentiert werden soll und wie viel Zeit eingeplant werden muss, um die Evaluation selbst, die Nachbesprechung und die Auswertung durchzuführen.
5. Evaluation durchführen
Die Evaluation selbst besteht aus einem Test, Aufgabenstellungen oder Befragungen, die durchgeführt werden. Nachdem die Evaluation durchlaufen wurde, wird diese mit den Probanden nochmal Aufgabenstellung für Aufgabenstellung durchgesprochen. Der genaue Ablauf der Evaluation ist abhängig von der gewählten Evaluationsmethodik.
6. Resultate auswerten
Die Auswertung der Resultate ist abhängig von der gewählten Evaluationsmethodik und der Dokumentationstechnik. Bei quantitativen Daten sollte eine statistische Auswertung gemacht werden, bei qualitativen Daten sollten anhand dieser Vergleiche zum vorherigen Softwarestand gezogen werden.
Beim Testablauf mit Personen mit Einschränkungen müssen einige zusätzliche Punkte beachtet werden, um eine reibungslose Evaluation zu ermöglichen:
Befragungsmethoden können in schriftliche und mündliche unterteilt werden.
Zu den schriftlichen Methoden zählen zum Beispiel Fragebögen. Diese können entweder allein oder im Dialog ausgefüllt werden. Ein gemeinsames Ausfüllen hat zum Vorteil, dass vermieden werden kann, dass der Fragebogen unvollständig ausgefüllt zurückkommt, weil die Fragestellung nicht verstanden wurde oder weil die Benutzer nicht genug Motivation zum Ausfüllen hatten.
Eine mündliche Variante können Interviews sein, diese können entweder als Einzelinterviews oder als Gruppeninterviews in Form einer moderierten Diskussion durchgeführt werden. Gruppeninterviews haben oft den Vorteil, dass bei diesen die Teilnehmer motivierter sind und sich während der Ausführung der Probleme anderer Teilnehmer selbst an bestimmte vergessene Probleme wieder zurückerinnern. Sie können nur leider dazu führen, dass manche Probanden weniger zu Wort kommen als andere. Interviews können insgesamt sehr aufwendig sein.
Tagebuchstudie
Eine Alternative zu den Befragungsmethoden stellt die Tagebuchstudie dar. Bei dieser vermerken die Benutzer über einen längeren Zeitraum ihre Eindrücke, ihr Nutzungsverhalten, ihre Probleme, Verbesserungshinweise und Lerneffekte der Software. Dies führt dazu, dass die Probanden die Software in ihrem realen Nutzungskontext benutzen und deshalb auch realistische Daten bezogen werden können. Um eine Tagebuchstudie über einen längeren Zeitraum vollständig durchziehen zu können, braucht der Proband jedoch Selbstdisziplin.
Verhaltensbeobachtung
Die dritte Möglichkeit wäre eine Verhaltensbeobachtung während der Nutzung der Software durchzuführen. Die Verhaltensbeobachtung kann in die teilnehmende/anwesende Beobachtung und die nicht-teilnehmende/indirekte Beobachtung untergliedert werden.
Bei der anwesenden Beobachtung sitzt der Beobachter direkt neben dem Probanden. Dies kann auch in Form eines Beobachtungsinterviews durchgeführt werden, dabei wechseln sich die Beobachtung des Probanden und die Stellung von Fragen zu der gerade ausgeführten Aufgabenstellung ab.
Die indirekte Beobachtung kann als Videoaufzeichnung mit mehreren Kameraeinstellungen durchgeführt werden. Dies kann man sich so vorstellen, dass eine Kamera die Hand beobachtet, eine andere den Bildschirm und eine weitere die Mimik des Probanden während der Evaluation. Auch Eyetracking kann hier angewendet werden. Eine Beobachtung durch eine Kamera hat den Vorteil, dass man auch Zögern in manchen Situationen erfassen kann, das man normalerweise nicht mitbekommt.
Eine andere Form der indirekten Beobachtung wäre die Logfileanalyse, bei dieser der Servertraffic einer bestimmten Webseite über einen längeren Zeitraum beobachtet und protokolliert wird. Es kann zum Beispiel die Verweildauer, geographische Information über die Besucher und die Einstiegsseite protokolliert werden. Zur Messung können Web-Analyse-Systeme wie zum Beispiel Google Analytics genutzt werden. Diese Art der Überwachung ist sehr leicht durchführbar. Es ist nur leider nicht in allen Fällen immer eine Ursachenforschung möglich, warum zum Beispiel die Absprungraten so hoch sind. Die Logfileanalyse kann auch zur Suchmaschinen-Optimierung (SEO) genutzt werden.
Wenn du mehr über SEO erfahren möchtest, kannst du gerne bei unseren bisher erschienen Blogbeiträgen dazu vorbeischauen. Dies ist der Link zum neusten Beitrag dieser Reihe:
Der Halo-Effekt kann auftreten, wenn ein besonders auffallender Eindruck der Software oder des Prototypen die restliche Wahrnehmung „überstrahlt" und somit weitere Details übersehen werden.
Wenn die Teilnehmer der Evaluation sich beim Benutzen der Software beobachtet fühlen, kann der Hawthorne-Effekt auftreten. Die Benutzer verhalten sich dann nicht so wie sie es sonst, ohne unter Beachtung zu stehen, tun würden. Die Beobachtung erzeugt eine falsche Realität.
Der Biasing-Effekt kann auftreten, wenn einseitiges Vorwissen der Software die Sicht auf das Problem verzerrt. Einem Experten werden die Probleme in seinem Fachgebiet immer vermehrt auffallen im Gegensatz zu den restlichen Problemen.
Die Stichprobe der untersuchten Teilnehmer muss repräsentativ sein, damit sich die Ergebnisse auf die Grundgesamtheit verallgemeinern lassen.
Es ist wichtig eine Evaluation bei deiner Software durchzuführen, um die größten Usability-Probleme zu vermeiden. Dazu können viele verschiedene Evaluationsmethoden genutzt werden. Welche Evaluationsmethode du verwenden willst, hängt ganz davon ab, welche Software vorliegt, wie viel Zeit, Ressourcen und Probanden dir zum Evaluieren zur Verfügung stehen und an welcher Stelle im Entwicklungsprozess du eine Evaluation durchführen möchtest.
Zum Abschluss kannst du dir merken: Bereits fünf Vertreter aus deiner realen Zielgruppe können 85% der wichtigsten Usability-Probleme lösen!