Neuen AI-gestützten Sprachassistenten

Ich entwickle einen neuen, AI-gestützten Sprachassistenten. Mein erster Prototyp ist eine Android-App, mit der sich einige Geräte im Haushalt steuern lassen. Jetzt überlege ich, wie es weitergehen soll.

Ich freue mich über dein Feedback:

  1. Möchtest du es testen?

  2. Welches Gerät würdest du bevorzugen? Optionen könnten eine mobile App oder ein Smart Speaker wie Amazon Echo Dot oder Google Nest Mini sein. Aktuell gibt es nur die Android-Version, aber bei genügend Interesse könnte ich weitere Plattformen entwickeln.

  3. Hast du Interesse, bei der Entwicklung zu helfen? Es ist momentan ein Hobbyprojekt, aber ich schließe eine spätere Kommerzialisierung nicht aus – und selbstverständlich bekommen alle Mitwirkenden einen fairen Anteil.

Schlagwörter: KI, OpenAI, ChatGPT, Gemini, EdenAI

Warum es anders ist:
Herkömmliche Assistenten wie Alexa erfordern präzise Befehle (z. B. „Alexa, schalte das Deckenlicht im Badezimmer ein“ oder „Alexa, dimme das Deckenlicht im Badezimmer auf 40“). Mit AI kannst du ganz natürlich sprechen, und es versteht: „Hey, ich bin im Badezimmer und es ist dunkel hier. Ein bisschen Licht wäre gut, aber nicht zu hell.“

Außerdem unterstützt es nahtlos mehrsprachige Befehle, z. B.: „Oye, estoy en el baño y está muy oscuro aquí, me vendría bien algo de luz, pero no demasiada.“

Ich bin gespannt auf viele Antworten – lass mich auch wissen, wenn du denkst, dass die Idee nicht gut ist, und warum.

7 „Gefällt mir“

Cool, würde gerne testen. Steuere aktuell Licht, Heimkino etc. per Alexa

1 „Gefällt mir“

Du triffst damit genau meinen Nerv. Gerade in dem Bereich gibt es viel Luft nach oben. Was habe ich mich schon aufgeregt über diese unintelligente Spracherkennung.

Siri soll ja nun auch entsprechend intelligenter werden und mittels KI optimiert werden.

Leider ist Android für mich kein Thema. Ich mochte es noch nie und konnte mich nie damit anfreunden.

Wünsche Dir wirklich viel Erfolg mit Deinem Projekt.

LG

Danke, Boui! Wenn nicht Android, was wäre dann eine gute Alternative für dich? Eine iOS-App, oder ein Gerät ähnlich dem Echo Dot, oder etwas anderes?

Genau: IOS, MacOS ist meine Welt und auch die Welt der Familie.

LG

Interessant wie unterschiedlich man sein kann bin mehr bei Android und Alexa unterwegs und werde auf lange Sicht meine Apple Komponente teilweise „entsorgen“

1 „Gefällt mir“

Hand aufs herz, wer redet so? Ich stehe in der küche uns sage „alexa, licht an“ und alexa erkennt das. Das gleiche gilt fürs wohnzimmer.

Ich habe eben nur nicht überall alexa. Aber das problem hat eben jedes system wenn es erkennen soll, wo sich wer gerade aufhält.

1 „Gefällt mir“

Definitiv Ich! Oder besser gesagt, versuche ich es. Leider scheitere ich oft daran, dass der Empfänger nicht kompatibel ist.

Ich hasse es, meine Art zu Sprechen dem System anpassen zu müssen.

LG

In unserem Fall haben wir ein Google Nest im Wohnzimmer mit einer offenen Küche. Daher wäre „Licht an“ verwirrend.

Was wenn du im Wohnzimmer bist, und das Badezimmerlicht einschalten möchten? Du sagst vielleicht „Alexa, Badezimmerlicht an“. Aber dann kommt Ihr Partner oder Ihre Kinder und sagen „Alexa, schalte das Licht im Badezimmer an“, und es funktioniert nicht, weil Sie die genaue Phrase „Badezimmerlicht“ verwenden müssen, damit Alexa es erkennt …

Ich würde mir Alexa auch etwas intelligenter wünschen.
Beispielsweise richte ich einen Aktor ein, den ich vorsorglich schon mit mehreren Begriffen verknüpfe. Dann sage ich meiner Frau, dass sie jetzt das Gerät xy über Alexa schalten kann und sie soll es mal probieren. Dann wird garantiert eine Anweisung an Alexa gegeben, die ich so nicht vorhergesehen und damit auch nicht programmiert habe. Und dann funktioniert es erstmal auch nicht und der WAF wird so auch nicht besser…

Ja, finde auch das Alexa (kenne die anderen Assistenten nicht) etwas AI (früher wäre das wohl fuzzy logic gewesen) gebrauchen kann. Gerade in größeren Räumen haben wir jede Menge über Sprachsteuerung schaltbare Geräte, und im Gegensatz zu Alexa sind wir halt keine Maschinen so dass ich nicht immer genau weiss ob das Licht über der Couch jetzt Couch oder Sofa heisst. Und ein Rolladen ist halt manchmal umgangsprachlich ein „Rollo“, bei machen auch eine Jalousie. Das führt dann teilweise zu nicht ganz unkomischen Konversationen mit Alexa :sweat_smile: :rofl: :joy:

RIchtig AI wäre wenn der/die Assistenten Dir jeden Wunsch von den Lippen abliest bevor Du ihn geäussert hast…

Das stimmt, aber trifft in meinem fall nicht zu.

Das ist ein szenario was bei uns nicht zutrifft. Warum sollte ich vom wohnzimmer aus, das badezimmerlicht einschalten wollen?

Ich sehe schon, wir nutzen alexa anders…

Wenn ich bspw in der küche bin und koche, dann passiert es, gerade im winter, das ich beide hände voll habe, es aber dunkel wird.

Eine Erleichterung, wenn ich nur sagen soll, das licht in der küche schön wäre.

Ansonsten wären befehle wie

  • schalte das radio ein/aus (eine sonos automation läuft ab)
  • mach wasser warm (fürs baden :wink: )
  • rollo hoch/runter
  • schalte licht oben aus (weil das kind es oft vergisst).

Aber wie erwähnt, wir nutzen es scheinbar anders. Ich rede nicht mit dem haus :rofl:

1 „Gefällt mir“

Ich fände das cool, muss ja nicht genauso enden:

Moin,

ich bin im Prinzip für AI, aber keine, die von den großen Konzernen kontrolliert wird. Auch Alexa habe ich wieder abgeschafft, als die ersten Merkwürdigkeiten publik wurden.

Ich habe dann die Opensource Variante Mycroft Mark und Mark II ausprobiert. AI lässt sich lokal installieren und war ausreichend, um Alexas Spracherkennung zu erreichen und teilweise zu übertreffen.
Zur Zeit wäre Open AI von Neon.ai ein Nachfolger, auch hier gibt es die Möglichkeit die Spracherkennung lokal zu installieren. Leider ist bisher fast alles nur auf englisch verfügbar.
Hardware-Plattform ist relativ universell, u.a. Raspberry, x86_64 Siehe [HOWTO] Begin your Open Voice OS journey with the ovos-installer 💖 😍 - OpenVoiceOS's Voice AI Platform - Open Source Conversational AI Community

Ai ist generell gefährlich, da sie nur sehr schwer kontrollierbar ist. Aber ich schweife ab.

AI bietet vorrangig eine Menge Potential. Mein ganzer Arbeitstag ist voll von Aufgaben, die einfach Zeit fressen und mich von wichtigen Dingen abhalten.
Und ehrlich, die meisten Leute sind noch nicht mal in der Lage, ihre FRITZ!box zu konfigurieren und sind der Datensammlung ihres Auto- und Fernsehgeräteherstellers ausgeliefert.
Nicht die AI ist gefährlich, es sind nur die Menschen, die Technik ausnutzen. Du hast ja Deinen persönlichen Weg gefunden.

LG

5 „Gefällt mir“

Es stimmt, das Messer ist nur gefährlich in der Hand des Mörders. In der Hand des Koches hilft es beim (Über-)Leben. Leider sind nicht alle Menschen Köche…

Hm. Sowas in der Art hab ich meinem Symcon schon beigebracht.

Setzt aber einen Server mit einer passenden Grafikkarte voraus - hab mir dafür eine günstige Nvidia Tesla in der Bucht geholt. Stromverbrauch: ca. +25 Watt.

Aber von vorn. Ich nutze „Willow“ und „Whisper“ (googelt nach „ESP willow“ - sollte der erste Treffer sein).
Willow ist als Docker-Container verfügbar und ist am Ende ein Sprach-zu-Text und auch ein Text-zu-Sprache-System. Arbeitet mit einer einfachen http API, man postet ein (aufgenommenes) Audiofile und bekommt den erkannten Text zurück. Deutsch und englisch kein Problem - geht nicht gut, geht erschreckend gut!
Umgekehrt geht’s genauso: man postet Text an die API und bekommt ein Audiofile mit der Sprachausgabe zurück. Allerdings bekomme ich nur englische Sprachausgabe hin - das ist etwas tricky, der halbwegs verständliche deutsche Sätze zu entlocken. Für die Recherche, wie man die Sprachausgabe deutsch hinbekommt, fehlte mir bisher leider die Zeit.

Als Clients habe ich mir ein paar ESP32 Box S3 geholt, das sind so Mini-Touchscreens mit Lautsprecher, zwei Mikros und noch ein paar mehr Funktionen, die ich aber hier gar nicht brauche.
Darin ist ein potenter ESP32 eingebaut, der auch die WLAN-Verbindung herstellt.
Auf den Teilen läuft „Willow“, das ist eine Firmware speziell für den ESP32 Box und Whisper als Backend. Kommt ebenfalls erst einmal als Docker-Container, bietet eine Web-Admin-Oberfläche, über die auch die ESPs mit der Firmware geflasht werden können - bsw. einfach per USB oder - sobald Willow einmal drauf ist - auch per WLAN direkt aus der Weboberfläche heraus.
In der Oberfläche kann man dann auch noch ein paar Parameter einstellen wie Mikrofonempfindlichkeit und sowas.
Das Ansprechen der Whisper-API übernimmt Willow, man muss nur die Adresse der API konfigurieren.

Hab das jetzt schon knapp zwei Jahre laufen, alle Details hab ich leider nicht mehr im Kopf.
Irgendwo hab ich aber noch einen Webserver dazwischen gebraucht, der hat am Ende nur den Zweck, mir den Namen bzw. die IP des Willow-Clients aufzulösen, auf welchem ein Sprachbefehl entgegen genommen wurde. Willow selbst liefert nur den erkannten Text zurück.
Naja, erkannter Text und Client landen dann im Symcon als Variable (per Webhook oder API), worauf ich dann wieder mit Symcon Ereignissen reagieren kann.
Am Ende hängen dann zwei Skripte dahinter, eines beinhaltet lediglich die Definitionen der Sprachbefehle, Schlüsselwörter, Räume, auszulösende Aktionen in Form von Symcon-Skript-Ids sowie mögliche Antworten. Das zweite Skript beinhaltet dann nur noch die Logik.
Am Ende arbeite ich da mit Schlüsselwörtern, wobei durch die mitgelieferte Client-Info eine „Übersetzung“ in den Raum erfolgt, in welchem der Client steht. Um bsw. Licht einzuschalten, müssen die Schlüsselwörter „Licht“, „an“ oder „ein“ sowie eine Rauminfo erkannt werden. „Wohnzimmer“ würde als Sprachbehel erkannt und auch zur Zuordnung „Wohnzimmer“ führen, so kann ich bsw. auch im Schlafzimmer den Sprachbefehle „Wohnzimmer Licht an“ absetzen. Setze ich im Schlafzimmer nur „Licht an“ ab, also ohne dass ich eine Rauminfo als Sprachbefehl mitgebe, erfolgt die Raumzuordnung anhand des Clients - der ja im Schlafzimmer stehen muss - so dass damit auch das Licht im Schlafzimmer geschaltet wird.
Durch die Schlüsselwörter kann ich auch sagen: „Alexa, etz schalt halt endlich mal das licht an!“ und das funzt dann auch. Oder „Alexa, bitte mach mir das licht an!“ (‚Alexa‘ ist neben ‚Hi ESP‘ das einzig brauchbare Wakeword in Willow).
Natürlich sind dann auch Spielerein möglich wie „Alexa, mach mal die Garage zu!“ und, weil die Garage bereits zu ist, antwortet Willow dann halt „Garage ist doch schon zu, Du Vollpfosten!“.
Btw: Garagen oder Türen oder sonstige sicherheitsrelevante Elemente sollte man grundsätzlich nicht per Sprache bedienen - ein Einbrecher braucht ja bsw. sonst nur durchs Fenster den Sprachbefehl „Haustür auf!“ absetzen und schon ist er drin. Mit einem Knochenschalllautsprecher geht das auch durchs geschlossene Fenster, wenn man den Lausprecher an die Fensterscheibe hält.

Die möglichen Antworten sind ebenfalls im Konfigskript gespeichert. Die Sprachantwort am jeweiligen Willow-Endgerät triggert Symcon über einen http-Aufruf - auch dafür benötige ich natürlich die Info, welches Willow-Gerät denn überhaupt den Sprachbefehl aufgenommen hat.
Bei mir sind die Antworten immer gleich - lässt sich natürlich beliebig ausbauen. Man könnte bsw. freundliche Antworten geben lassen, wenn das Schlüsselwort „bitte“ mit erkannt wurde und pampige bei Wörtern wie „endlich“ oder „wird’s bald“ etc. im erkannten Sprachbefehl.

Manchmal labert die bei mir auch ohne abgesetzten Befehl los - aber schon gewollt! Bsw. lasse ich Symcon anhand Werten aus Smartmetern erkennen, wann bei uns im Haus Kaffee gekocht wird (bestimmter Stromverbrauch auf einer bestimmten Phase über einen bestimmten Zeitraum) und dann labern bestimmte Willows: „Kaffee wird gekocht! Lecker!“ :wink:

Whisper und WIllow sind kostenlos - zumindest für den Privatgebrauch. Habe mich nicht wirklich mit den Lizenzbedingungen auseinandergesetzt.
So eine ESP32 Box hab ich für rund 50 Euro bekommen, Stromverbrauch hält sich auch in Grenzen (habe 4-5 Watt in Erinnerung). Das Ganze läuft halt komplett lokal ohne Cloud und soweit ich mich erinnere, gibt es auch Bots als Container, also so Sprachbots zum Unterhalten.
Die Keyword-Erkennung erfolgt im ESP32 lokal, erst dann nimmt er auf und streamt es zu Whisper. Die Spracherkennungs-KI läuft also wirklich nur, wenn sie gebraucht wird. Text-to-Speech-Audiodateien werden sogar gecached - wirklich erstellt werden die nur beim ersten Aufruf.

Ich hab mir das Ganze eigenlich nur mal anschauen wollen, bin kein wirklicher Fan von „KI überall“ und Spracherkennung. Aber es funktioniert tatsächlich erschreckend gut!
Die Mikros der ESP32-Boxen sind erstaunlich gut, funktioniert aus mehreren Metern Entfernung in normaler Unterhaltungslautstärke. Leider wird zwar ab und an auch das Keyword erkannt, wenn TV-Sendungen oder Filme laufen und ein Willow-Gerät direkt neben dem Fernseher steht, da muss man halt ein bischen spielen mit der Mikro-Empfindlichkeit oder auch einfach dem Aufstellort. Wirklich oft kommt das auch nicht vor. Mit entsprechender Geduld bei der Einrichtung (die ich nicht wirklich habe), dürften falsche Wakeworderkennungen meines Erachtens auch komplett wegzubekommen sein.
Die Sprach-zu-Text-Umwandlung mit Whisper geht rasend schnell, solange man eine passende GPU (Grafikkarte) hat. Ohne GPU hat die Erkennung dann doch 7-8 Sekunden gedauert, mit der GPU jetzt weit unter einer Sekunde - gefühlt ist da gar kein Delay.

3 „Gefällt mir“

also ich kenne die Namen meiner Schalter in unserem Haus (meistens), habe ja keine 200 Räume, die man sich merken muss.
Und ich nutze schon aus dem Wohnzimmer heraus z.B. den Befehl „Alexa, Bad aus“, nämlich immer dann, wenn meine Familie das Bad verlässt und vergisst, das Licht auszuschalten.

schwierig wird es nur, wenn es Befehle sind, die man selten gibt, und ob AI einen dann versteht ist ja noch mal was anderes :slight_smile:

und bei so einer App „muss“ das Handy dann ja auch immer zuhören :slight_smile: das will ich schon bei der Alexa nicht in jedem Zimmer des Hauses :slight_smile: