In den letzten Wochen habe ich mich in Amazons Alexa eingearbeitet. Das geht am besten, wenn man das Ganze anhand eines kleinen Projekts aufzieht. Das habe ich jetzt über Weihnachten in Ruhe fertig gestellt; oder zumindest in einen benutzbaren Zustand gebracht. Hier eine kleine Übersicht über das Projekt Genesis.
Der Alexa Skill
Nachdem man ein Entwickler-Konto bei Amazon angelegt hat, können wir einen Skill anlegen. Dieser hat dann mehrere Eigenschafte, die wir festlegen müssen.
Rufwort
Um den Skill zu aktivieren, benötigt man ein Rufwort. Das wird hier in der Developer Console eingetragen. wichtig ist dabei zu beachten, dass hier ein prägnanter, aber noch freier Name gewählt wird. Ob der Name noch frei ist, lässt sich im Skill Store von Amazon nachschauen.
Funktionen
Es gibt bereits eine Vorauswahl an Skills für kurze Nachrichten, Smart Home Integration oder Videos, die man als Vorlage nutzen kann. Ich habe mich für den Custom Skill entschieden, der ist frei konfigurierbar.Der Skill benötigt noch einen Namen und eine Sprache.
Jetzt kann der Skill bearbeitet werden. Auf der nächsten Seite befindet sich die Skill Einstellungen. Hier wird das Modell der Spracherkennung konfiguriert und die möglichen Sätze (Utterances / Äußerungen) mit den dazugehörigen Funktionen (Intents / Absichten) verbunden und beschrieben, welche Satzteile wichtige Informationen sind. So wird beschrieben, dass zum Beispiel aus dem Satz Mein Name ist Basti der Intent setName mit dem Parameter Basti abgeleitet werden soll.
Jetzt kann der Skill bearbeitet werden. Auf der nächsten Seite befindet sich die Skill Einstellungen. Hier wird das Modell der Spracherkennung konfiguriert und die möglichen Sätze (Utterances / Äußerungen) mit den dazugehörigen Funktionen (Intents / Absichten) verbunden und beschrieben, welche Satzteile wichtige Informationen sind. So wird beschrieben, dass zum Beispiel aus dem Satz Mein Name ist Basti der Intent setName mit dem Parameter Basti abgeleitet werden soll.
Das funktioniert mit dem Web Interface ganz einfach. Hier ein Beispiel aus dem aktuellen Projekt.
Wenn alle Intents angelegt, einige Beispiel-Formulierungen hinterlegt und darin die Parameter (Slots) gekennzeichnet sind, kann das Modell erzeugt werden. Das dauert ein paar Minuten und läuft im Hintergrund ab.
Interfaces
Hier kann bestimmt werden, welche Funktionen unser Skill mitbringen soll. Zum Beispiel das Audio Player Interface, dass es uns erlaubt Audio Daten abzuspielen, oder der Video Player für Videos.
Für die Echo Show Geräte kann auch ein Display Interface für die Anzeige von Text und Bildern auf dem Monitor gewählt werden. Für diesen Skill benötigen wir davon erst einmal nichts.
Endpoint
Um das Ganze mit Leben zu füllen, benötigen wir ein Programm, dass die Informationen, die Amazon über diesen Skill erzeugt verarbeiten kann. Das läuft bei mir unter Python. Ich verwende dazu die Bibliothek Alexandra. Zum Programm gibt es später mehr.
Test
Der Skill kann mit Hilfe von eingetippten oder gesprochenen Textstücken getestet werden. Hier kann man live die Daten, die Amazon zur Verfügung stellt und die Antwort der Software am Endpoint betrachten und debuggen. Wenn alles funktioniert wie gewünscht, kann mit der Vorbereitung der Veröffentlichung begonnen werden.
Distribution
Wenn alle diese Daten eingegeben sind, fehlen noch organisatorische Informationen. Unter dem Distribution Reiter können der öffentliche Name, eine Kurzbeschreibung, eine ausführliche Beschreibung und Beipielsätze eingetragen werden. Weiterhin benötigt der Skill ein Icon und eine Kategorie. Dieser Skill landet in Games. Schlagworte für die Suche dürfen auch nicht fehlen. Ebenso wenig wie die Privacy Policy und die Terms of Use.
Im nachfolgenden Reiter müssen wir noch die Rechtlichen Dinge klären. So muss angegeben werden, ob in dem Skill gegen reales Geld etwas gekauft werden kann, ob der Skill personenbezogene Daten speichert, ob er sich an Kinder unter 13 richtet und ob er Werbung enthält. Hier werden ebenfalls Angaben gemacht, wie der Skill von Amazon evaluiert und getestet werden kann.
Wenn alles das geklärt ist, legen wir fest, ob der Skill öffentlich, also für jeden auf den gleichen Endpunkt endet, oder ob wir kundenspezifisch einen Endpunkt festlegen wollen. Dieser Skill ist öffentlich.
Hier kann auch ein Beta Test gestartet werden. Denn der Skill sollte von einige Leuten getestet werden, um Fehler zu finden, die man selbst übersehen hat.
Eine Beschränkung auf Deutschland ist ebenfalls bei diesem Skill vorgesehen, denn er ist deutschsprachig. Ist also in Botswana nicht unbedingt nützlich.
Certification
Ist der Skill komplett, wird er erst automatisiert auf Vollständigkeit getestet, ist diese Validierung erfolgreich, kann er durch einen automatisierten Funktionstest getestet werden. Dabei wird der Endpunkt mit automatischen Aufrufen angesprochen und die Reaktion validiert. Wenn beide Tests gut getestet werden, kann der Skill schlussendlich bei Amazon zur Prüfung eingereicht werden. Dieser Prozess dauert allerdings ein paar Tage und man kann in dieser Zeit keine Veränderungen vornehmen.
Erst wenn Amazon den Skill geprüft hat, erscheint er öffentliche im Store. Aber vorher kann ja der Beta Test herhalten. Dazu muss man seine Tester allerdings kennen.