Accessibility

Googles Sprachnavigation weiss dank KI, was Icons tun

Uhr
von Yannick Chavanne und Übersetzung René Jaun, lha

Google erweitert das Tool "Voice Access", welches die barrierefreie Steuerung des Smartphones mit der Stimme ermöglicht. Mithilfe künstlicher Intelligenz erkennt das Programm nun die Funktion von Icons, auch wenn diese vom Entwickler nicht korrekt gekennzeichnet wurden.

(Source: Alexander Shatov / Unsplash)
(Source: Alexander Shatov / Unsplash)

Sprachbefehle sind für viele Menschen eine bequeme Möglichkeit, ihr Smartphone zu steuern. Für einige Nutzer und Nutzerinnen, namentlich jene mit motorischen Behinderungen, sind siejedoch nicht nur bequem, sondern der einzige Weg, ihr Handy zu bedienen. Gerade für sie ist es unerlässlich, sämtliche Elemente der Benutzeroberfläche per Stimme ansteuern zu können.

Nur denken Anwendungsentwickler nicht immer an die Personen, die ihr Handy vollumfänglich per Sprache steuern wollen oder müssen. Um die Lücken in diesem Bereich zu schliessen, hat Google nun sein Accessibility-Tool "Voice Access" verbessert.

Falsch beschriftete Symbole

Konkret erkennt"Voice Access" (ab Version 5.0) nun mittels KI die Funktion von Icons in Apps automatisch, wie die Entwickler in einem Blogbeitrag erläutern. Der Nutzer oder die Nutzerin wiederum kann die Icons per Sprachbefehl ansteuern, zum Beispiel "Menü", "Weiter", "Zurück" und so weiter.

Bislang funktionierte dies nur dann, wenn die App-Entwickler den Icons jeweils ein korrektes Accessibility-Label hinzugefügt hatten. Laut dem Blog klappt es mit der neuesten Version von "Voice Access" auch dann, wenn dieses Label fehlt.

"Voice Access" verlässt sich auf KI, um Nutzer und Nutzerinnen zu führen, indem es auf den Namen oder die Funktion von Symbolen verweist. (Source: Google)

Mehr als 700'000 Bildschirmfotos analysiert

Zur Erkennung der Symbole greift "Voice Access" auf "Iconnet" zurück, ein KI-Modell zur visuellen Objekterkennung, wie es im Blog weiter heisst. Es identifiziert Anwendungssymbole anhand von pixelbasierten Informationen und bestimmt ihre Position und Grösse.

Um das Modell zu erstellen, haben die Ingenieure des Unternehmens aus Mountain View zunächst mehr als 700'000 Anwendungs-Screenshots gesammelt und mit Labels versehen. Zudem seien die Daten durch weniger häufige Icons erweitert worden.

Vom Server aufs Smartphone

"Iconnet analysiert die Pixel des Bildschirms und identifiziert die Zentren der Icons, indem es Heatmaps erzeugt, die genaue Informationen über die Position und den Typ der verschiedenen Arten von Icons auf dem Bildschirm liefern", schreiben die Forschenden von Google im Blogartikel. Das Modell basiere auf der "Centernet"-Architektur. Sie eigne sich für diesen Anwendungsfall besonders gut, da die Elemente der Benutzeroberfläche aus einfachen und symmetrischen geometrischen Formen bestehen. Dies mache es einfacher, ihre Zentren zu identifizieren als bei natürlichen Bildern.

Das Modell, welches Google zunächst nutzte, war für den serverseitigen Betrieb optimiert. Damit es auch auf einem Smartphone laufen konte, passten es die Entwickler an: "Wirhaben unser On-Device-Netzwerkdesign auf einen einzigen Stack beschränkt und die Breite des Backbones drastisch reduziert. Da die Erkennung von Icons von mehr lokalen Features abhängt (im Vergleich zu realen Objekten), konnten wir ausserdem die Tiefe des Backbones weiter reduzieren, ohne die Leistung zu beeinträchtigen."

Derzeit könne "Voice Access" dank "Iconnet" schon 31 Icons selbständig erkennen, schreiben die Forschenden. Bald sollen es über 70 werden, heisst es bei Google Research. Zudem soll "Iconnet" künftig auch alle weiteren Elemente einer App erkennen können, darunter etwa Bilder, Texte oder Schaltflächen.

Ähnliches Feature von Apple

Auch Google-Rivale Apple hat unlängst damit angefangen, seine Accessibility-Tools mittels künstlicher Intelligenz zu erweitern. Seit Version 14 des Smartphone-Betriebssystems IOS kann etwa der Bildschirmleser "Voice Over" Bilder beschreiben und unbeschriftete Buttons automatisch zuordnen. Laut "TechCrunch" ist auch die KI, die dieser Funktion zu Grunde liegt, mit tausenden von Screenshots trainiert worden.

Tags
Webcode
DPF8_205435