Tts Sur Son Nas

Diaoul · le 5 janvier 2012

Un petit pas de plus, j'ai maintenant un déclenchement d'action sur des phrases de type : "Dobby donne moi la météo"

"Dobby" : phrase de déclenchement

"donne moi la météo" : phrase liée à des actions (en l'occurence une seule action, météo)

Le tout fonctionne, sauf que c'est en anglais et que j'utilise une grammaire bien light.

Y'a encore pas mal de boulot pour rendre ça utilisable facilement

Remylpat · le 5 janvier 2012

Salut Diaoul,

Pour ce qui est de la comparaison de mots en fonction de l'interprétation du Speech to Text j'ai trouvé un lien assez interressant qui devrait t'aider si jamais tu ne connais pas : Levenshtein distance.

http://en.wikibooks.org/wiki/Algorithm_implementation/Strings/Levenshtein_distance

Pour faire simple il calcul la différence entre 2 mots Avion & Aviron ou Weather & Eather ....

Des fois que ca aide ...

Diaoul · le 6 janvier 2012

Merci mais je vois pas bien l'intérêt de la chose dans Dobby.

J'ai fini la structure du projet et j'ai fait des tests avec un modèle acoustique anglais. Après un peu de paramètrage :

Citation

- Dobby weather and time please

- It is 00 hours 29 minutes. The weather is cloudy with a temperature of 5.5 degrees

C'est plutôt cool Il reste la partie configuration qui est manuelle, surtout sur la partie grammaire qui est un peu lourde. Je vais faire un petit outil qui va regarder toutes les phrases en base de donnée et générer le .dfa et .dict qui vont bien.

Et puis plus tard, une interface graphique pour faire la configuration des actions et des phrases en base de donnée.

Remylpat · le 7 janvier 2012

En fait je me disais que lors de l'interpretation de la phrase, Dobby weather & time please, il faut comparer les mots retourné par le speech to text avec une base de mots qui eux memes sont les triggers d'actions specifiques.

Si jamais le mot compris est pas trop eloigné d'un mot d'action (levensthein faible) alors executer l action plutot que de dire Dobby do not undérstand please ask again

Mais a priori ti dois le faire autrement et tu avance bien a priori. En core bravo

Diaoul · le 7 janvier 2012

Le logiciel de reconnaissance vocale ne reconnait que les phrases que je lui donne dans une liste avec l'orthographe que je lui indique. Aucune chance d'avoir un mot mal orthographié ou quoi que ce soit.

Regarde la doc de julius sur la partie .voca + .grammar, c'est super bien fait

Diaoul · le 13 janvier 2012

Sp@ro: tu avances sur la création d'un modèle acoustique français ?

J'aimerai aussi des idées sur le type d'actions que l'on pourrait avoir. Actuellement il y a météo et heure.

J'envisage :

Données système
- Température CPU
- Infos disque dur (SMART)
[*]Un lecteur RSS

[*]Agenda Google

[*]Magnétophone (prise de notes audio, etc.)

D'autres suggestions ?

PiwiLAbruti · le 13 janvier 2012

Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..."
Démarrage d'une machine compatible WOL : "Allume mon PC."
Lecture de podcasts.
Interfaçage avec OpenRemote (Java ) pour la domotique, avec leur API ça devrait être assez simple.

Remylpat · le 13 janvier 2012

Moi j'avais comme idée :

Dictionnaire :

Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction

Traduction

Traduit "voiture" en anglais => La traductin est : "car"*

Domotique

Allume / Eteint + device => commande a spécifier dépendant de l'archi.

Mails :

NB mails non lus

Distance :

Distance Paris Bordeaux : la distance est de XX km

RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? :

Perturbation traffic RATP
Perturbation traffic SNCF (

Au fait as tu recu ton VoiceTracker ?

Moi j'ai pas trop eu de temps pour tester le Bluetooth encore

Diaoul · le 13 janvier 2012

Le 1/13/2012 à 2:04 PM, PiwiLAbruti a dit :

Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..."

Démarrage d'une machine compatible WOL : "Allume mon PC."

Lecture de podcasts.

Interfaçage avec OpenRemote (Java ) pour la domotique, avec leur API ça devrait être assez simple.

OK pour le WOL, la lecture de podcasts aussi.

Tu as des indications sur comment récupérer les données Syno comme les températures ou les téléchargements dont tu parles là ?

Pour l'interfaçage pourquoi pas mais je n'ai pas de use case précis sur lequel bosser pour l'instant donc on verra plus tard

Le 1/13/2012 à 2:24 PM, Remylpat a dit :

Moi j'avais comme idée :

Dictionnaire :

Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction

Traduction

Traduit "voiture" en anglais => La traductin est : "car"*

Domotique

Allume / Eteint + device => commande a spécifier dépendant de l'archi.

Mails :

NB mails non lus

Distance :

Distance Paris Bordeaux : la distance est de XX km

RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? :

Perturbation traffic RATP

Perturbation traffic SNCF (

Au fait as tu recu ton VoiceTracker ?

Moi j'ai pas trop eu de temps pour tester le Bluetooth encore

Mails effectivement c'est pratique, nombre de mails non lus ainsi que la lecture de ces derniers éventuellement.

Traduction, Domotique et Distance pour moi c'est du gadget pas forcément très utile et qui ne respecte pas un des pilier de Dobby : le nombre fini de commandes vocales possibles.

Afin de booster la performance de la reconaissance vocale, Dobby voit son vocabulaire limité aux seules phrases qu'il a besoin de comprendre pour l'instant. Ca limite les erreurs de compréhension.

On est vraiment dans de la commande vocale, c'est pas une intelligence artificielle.

C'est vrai que ça pourrait être pratique d'avoir une certaine flexibilité dans certains cas :

Donne moi les "5" dernières nouvelles

Donc ok, on a un nombre au milieu, ce serait chiant de faire une phrase pour chacun des numéros. Je peux introduire un token spécial pour indiquer qu'un nombre doit se trouver dans cette phrase et que l'action déclenchée par la phrase doit dépendre de ce nombre.

Donne moi les %number% dernières nouvelles

Quoi d'autre ? De quel autre "token" peut-on avoir besoin dans une commande vocale ? Ce token doit avoir une liste finie de possibilités, on ne peut pas avoir de token "mot" par exemple.

Diaoul · le 14 janvier 2012

"Dobby update" pourrait mettre à jour Dobby automatiquement

Remylpat · le 14 janvier 2012

tres bien pensé le update

On cree une liste de scripts bash on les numerote (si on pouvais les nommer se serait genial '-)

on les depose dans un repertoire particulier et ensuite :

Dobby execute Script 1

=> sh Script 1

Comme ca on ouvre a tout !!!

Diaoul · le 14 janvier 2012

J'ai un rendu qui est vraiment bon avec mbrola pour la synthèse vocale

J'ai rajouté le lecteur de flux RSS commec action

Le problème de ce que je fais c'est une étape de configuration qui n'est pas difficile mais qu'il faut faire. Après par contre ça marche comme sur des roulettes !

Diaoul · le 24 janvier 2012

Bon, j'avance sur l'interface graphique de l'application Dobby afin de la paramètrer facilement l'ensemble. C'est super propre avec Qt.

Là ou je ne sais pas trop comment faire c'est comment paramètrer le Dobby sur le syno depuis une interface graphique sur le PC sachant que l'on a pas accès à la base de donnée sur le Syno ni au fichier de configuration....

Peut être que le mieux c'est une interface web.

La question devient donc, est-ce que cette interface web doit faire parti de l'application Dobby (au même titre que Qt) ou bien plutôt intégré à DSM ?

Dans tous les cas ce sera probablement pas moi qui ferait cette interface

Sp@ro: tu avances sur la création d'un modèle acoustique français ? J'aimerai bien tester ça Si tu as des pistes sur comment entrainer un tel modèle je suis prenneur de toute explications

Sp@r0 · le 24 janvier 2012

Malheureusement je n'ai pas trop avancer sur le modèle français alléger .... Pas trop le temps en ce moment...

Ce que je pensais faire c'est épurer le dictionnaire français avec un script qui recherche tout les lignes contenant les noms que l'on souhaite ajouter => ok ça roule

Créer un modèle baser sur ce dico avec Une base libre de voix mais la j'ai pri le temps de regarder....

Diaoul · le 5 juin 2013

Pour info, je me suis un peu remis dans le bain : https://github.com/SynoCommunity/spksrc/commit/eecfdd56dae358753541fa3718a6ac2bac67a3cf

Remylpat · le 5 juin 2013

Salut Diaoul,

Je ne sais pas si c'est le projet S.A.R.A.H (http://encausse.wordpress.com/s-a-r-a-h/) ou encore AEON (http://aonsquared.co.uk/raspi_voice_control) qui t'ont remis la puce a l'oreille mais cela fait qq semaine que je me repenche aussi sur la question.

J'ai creusé un peu le côté micro et il semblerait que le Playstation Eye disposerait d'un micro array (en fait de 4 micro) je pense que c'est la bonne solution pour le noise reduction et je vais surement craquer la semaine prochaine

Il faut que je me reinstalle tout ca mais j'avoue avoir un peu perdu le fil sur l'installation et la configuration du "clapper".

comment puis-je t'aider avec mes maigres idées et ma petite contribution ?

Est-ce qu'il ne serait pas interressant de prendre aussi exemple sur S.A.R.A.H avec le server NodeJS pour les actions et créer des plugins ?

On demanderais ainsi de l'aide a la communauté pour developper des plugins actions la grammaire ayant l'air de se faire assez simplement ?

Dis moi si ce que je dis est completement a coté ....

Diaoul · le 6 juin 2013

Non c'est mon propre projet Dobby. Je me suis dit qu'il fallait lui donner un petit coup de jeune

Je m'oriente vers la création d'un réseau de neurones pour faire du speech recognition. C'est d'ailleurs vers ça que s'oriente aussi le gars d'AEON : http://aonsquared.co.uk/node/30

Koma66 · le 6 juin 2013

Salut les gars !
Ce projet m'intéresse grandement également mais malheureusement je suis loin d'avoir les compétences nécessaires à sa mise en place

Si jamais je peux aider d'une façon ou d'une autre n'hésitez pas

Remylpat · le 9 juin 2013

Salut,

Si diaoul nous autorise a acceder au git et que j'arrive finalement a compiler je veux bien aider.

Faut que je relise les 8 pages car il me semble que deja l'annee derniere j'avais essayer de compiler et j'avais pas reussi

Diaoul · le 9 juin 2013

Il n'y a besoin d'aucun accès pour la lecture. Ou alors je n'ai pas compris de quoi tu parles.

Remylpat · le 9 juin 2013

Donc si hé fais un gît clone je peux ensuite compiler ?

Je suis vrailmzent un neewb

Connexion

Tts Sur Son Nas

Messages recommandés

Diaoul

Meilleurs contributeurs dans ce sujet

Jours populaires

Meilleurs contributeurs dans ce sujet

Jours populaires

Remylpat

Diaoul

Remylpat

Diaoul

Diaoul

PiwiLAbruti

Remylpat

Diaoul

Diaoul

Remylpat

Diaoul

Diaoul

Sp@r0

Diaoul

Remylpat

Diaoul

Koma66

Remylpat

Diaoul

Remylpat

Rejoindre la conversation

Qui est en ligne 4 membres, 0 anonyme, 110 invités (Afficher la liste complète)

Contributeurs populaires

Annonces

Forum

Discussions

Articles

Information importante