Diaoul Posté(e) le 5 janvier 2012 Partager Posté(e) le 5 janvier 2012 Un petit pas de plus, j'ai maintenant un déclenchement d'action sur des phrases de type : "Dobby donne moi la météo" "Dobby" : phrase de déclenchement "donne moi la météo" : phrase liée à des actions (en l'occurence une seule action, météo) Le tout fonctionne, sauf que c'est en anglais et que j'utilise une grammaire bien light. Y'a encore pas mal de boulot pour rendre ça utilisable facilement 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remylpat Posté(e) le 5 janvier 2012 Auteur Partager Posté(e) le 5 janvier 2012 Salut Diaoul, Pour ce qui est de la comparaison de mots en fonction de l'interprétation du Speech to Text j'ai trouvé un lien assez interressant qui devrait t'aider si jamais tu ne connais pas : Levenshtein distance. http://en.wikibooks.org/wiki/Algorithm_implementation/Strings/Levenshtein_distance Pour faire simple il calcul la différence entre 2 mots Avion & Aviron ou Weather & Eather .... Des fois que ca aide ... 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 6 janvier 2012 Partager Posté(e) le 6 janvier 2012 Merci mais je vois pas bien l'intérêt de la chose dans Dobby. J'ai fini la structure du projet et j'ai fait des tests avec un modèle acoustique anglais. Après un peu de paramètrage : - Dobby weather and time please - It is 00 hours 29 minutes. The weather is cloudy with a temperature of 5.5 degrees C'est plutôt cool Il reste la partie configuration qui est manuelle, surtout sur la partie grammaire qui est un peu lourde. Je vais faire un petit outil qui va regarder toutes les phrases en base de donnée et générer le .dfa et .dict qui vont bien. Et puis plus tard, une interface graphique pour faire la configuration des actions et des phrases en base de donnée. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remylpat Posté(e) le 7 janvier 2012 Auteur Partager Posté(e) le 7 janvier 2012 En fait je me disais que lors de l'interpretation de la phrase, Dobby weather & time please, il faut comparer les mots retourné par le speech to text avec une base de mots qui eux memes sont les triggers d'actions specifiques. Si jamais le mot compris est pas trop eloigné d'un mot d'action (levensthein faible) alors executer l action plutot que de dire Dobby do not undérstand please ask again Mais a priori ti dois le faire autrement et tu avance bien a priori. En core bravo 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 7 janvier 2012 Partager Posté(e) le 7 janvier 2012 Le logiciel de reconnaissance vocale ne reconnait que les phrases que je lui donne dans une liste avec l'orthographe que je lui indique. Aucune chance d'avoir un mot mal orthographié ou quoi que ce soit. Regarde la doc de julius sur la partie .voca + .grammar, c'est super bien fait 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 13 janvier 2012 Partager Posté(e) le 13 janvier 2012 Sp@ro: tu avances sur la création d'un modèle acoustique français ? J'aimerai aussi des idées sur le type d'actions que l'on pourrait avoir. Actuellement il y a météo et heure. J'envisage : Données système Température CPU Infos disque dur (SMART) [*]Un lecteur RSS [*]Agenda Google [*]Magnétophone (prise de notes audio, etc.) D'autres suggestions ? 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
PiwiLAbruti Posté(e) le 13 janvier 2012 Partager Posté(e) le 13 janvier 2012 Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..." Démarrage d'une machine compatible WOL : "Allume mon PC." Lecture de podcasts. Interfaçage avec OpenRemote (Java ) pour la domotique, avec leur API ça devrait être assez simple. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remylpat Posté(e) le 13 janvier 2012 Auteur Partager Posté(e) le 13 janvier 2012 Moi j'avais comme idée : Dictionnaire : Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction Traduction Traduit "voiture" en anglais => La traductin est : "car"* Domotique Allume / Eteint + device => commande a spécifier dépendant de l'archi. Mails : NB mails non lus Distance : Distance Paris Bordeaux : la distance est de XX km RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? : Perturbation traffic RATP Perturbation traffic SNCF ( Au fait as tu recu ton VoiceTracker ? Moi j'ai pas trop eu de temps pour tester le Bluetooth encore 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 13 janvier 2012 Partager Posté(e) le 13 janvier 2012 Lecture des notifications du NAS (progression des téléchargements, ...) : "Est-ce que mes téléchargements sont terminés ?" > "Machin est terminé, truc est à 60%, ..." Démarrage d'une machine compatible WOL : "Allume mon PC." Lecture de podcasts. Interfaçage avec OpenRemote (Java ) pour la domotique, avec leur API ça devrait être assez simple. OK pour le WOL, la lecture de podcasts aussi. Tu as des indications sur comment récupérer les données Syno comme les températures ou les téléchargements dont tu parles là ? Pour l'interfaçage pourquoi pas mais je n'ai pas de use case précis sur lequel bosser pour l'instant donc on verra plus tard Moi j'avais comme idée : Dictionnaire : Definition "voiture" => véhicule à moteur et à quatre roues servant à transporter des personne:Traduction Traduction Traduit "voiture" en anglais => La traductin est : "car"* Domotique Allume / Eteint + device => commande a spécifier dépendant de l'archi. Mails : NB mails non lus Distance : Distance Paris Bordeaux : la distance est de XX km RATP mais bon ca peut peut etre marcher avec le lecteur RSS ?? : Perturbation traffic RATP Perturbation traffic SNCF ( Au fait as tu recu ton VoiceTracker ? Moi j'ai pas trop eu de temps pour tester le Bluetooth encore Mails effectivement c'est pratique, nombre de mails non lus ainsi que la lecture de ces derniers éventuellement. Traduction, Domotique et Distance pour moi c'est du gadget pas forcément très utile et qui ne respecte pas un des pilier de Dobby : le nombre fini de commandes vocales possibles. Afin de booster la performance de la reconaissance vocale, Dobby voit son vocabulaire limité aux seules phrases qu'il a besoin de comprendre pour l'instant. Ca limite les erreurs de compréhension. On est vraiment dans de la commande vocale, c'est pas une intelligence artificielle. C'est vrai que ça pourrait être pratique d'avoir une certaine flexibilité dans certains cas : Donne moi les "5" dernières nouvelles Donc ok, on a un nombre au milieu, ce serait chiant de faire une phrase pour chacun des numéros. Je peux introduire un token spécial pour indiquer qu'un nombre doit se trouver dans cette phrase et que l'action déclenchée par la phrase doit dépendre de ce nombre. Donne moi les %number% dernières nouvelles Quoi d'autre ? De quel autre "token" peut-on avoir besoin dans une commande vocale ? Ce token doit avoir une liste finie de possibilités, on ne peut pas avoir de token "mot" par exemple. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 14 janvier 2012 Partager Posté(e) le 14 janvier 2012 "Dobby update" pourrait mettre à jour Dobby automatiquement 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remylpat Posté(e) le 14 janvier 2012 Auteur Partager Posté(e) le 14 janvier 2012 tres bien pensé le update On cree une liste de scripts bash on les numerote (si on pouvais les nommer se serait genial '-) on les depose dans un repertoire particulier et ensuite : Dobby execute Script 1 => sh Script 1 Comme ca on ouvre a tout !!! 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 14 janvier 2012 Partager Posté(e) le 14 janvier 2012 J'ai un rendu qui est vraiment bon avec mbrola pour la synthèse vocale J'ai rajouté le lecteur de flux RSS commec action Le problème de ce que je fais c'est une étape de configuration qui n'est pas difficile mais qu'il faut faire. Après par contre ça marche comme sur des roulettes ! 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 24 janvier 2012 Partager Posté(e) le 24 janvier 2012 Bon, j'avance sur l'interface graphique de l'application Dobby afin de la paramètrer facilement l'ensemble. C'est super propre avec Qt. Là ou je ne sais pas trop comment faire c'est comment paramètrer le Dobby sur le syno depuis une interface graphique sur le PC sachant que l'on a pas accès à la base de donnée sur le Syno ni au fichier de configuration.... Peut être que le mieux c'est une interface web. La question devient donc, est-ce que cette interface web doit faire parti de l'application Dobby (au même titre que Qt) ou bien plutôt intégré à DSM ? Dans tous les cas ce sera probablement pas moi qui ferait cette interface Sp@ro: tu avances sur la création d'un modèle acoustique français ? J'aimerai bien tester ça Si tu as des pistes sur comment entrainer un tel modèle je suis prenneur de toute explications 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Sp@r0 Posté(e) le 24 janvier 2012 Partager Posté(e) le 24 janvier 2012 Malheureusement je n'ai pas trop avancer sur le modèle français alléger .... Pas trop le temps en ce moment... Ce que je pensais faire c'est épurer le dictionnaire français avec un script qui recherche tout les lignes contenant les noms que l'on souhaite ajouter => ok ça roule Créer un modèle baser sur ce dico avec Une base libre de voix mais la j'ai pri le temps de regarder.... 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 5 juin 2013 Partager Posté(e) le 5 juin 2013 Pour info, je me suis un peu remis dans le bain : https://github.com/SynoCommunity/spksrc/commit/eecfdd56dae358753541fa3718a6ac2bac67a3cf 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remylpat Posté(e) le 5 juin 2013 Auteur Partager Posté(e) le 5 juin 2013 Salut Diaoul, Je ne sais pas si c'est le projet S.A.R.A.H (http://encausse.wordpress.com/s-a-r-a-h/) ou encore AEON (http://aonsquared.co.uk/raspi_voice_control) qui t'ont remis la puce a l'oreille mais cela fait qq semaine que je me repenche aussi sur la question. J'ai creusé un peu le côté micro et il semblerait que le Playstation Eye disposerait d'un micro array (en fait de 4 micro) je pense que c'est la bonne solution pour le noise reduction et je vais surement craquer la semaine prochaine Il faut que je me reinstalle tout ca mais j'avoue avoir un peu perdu le fil sur l'installation et la configuration du "clapper". comment puis-je t'aider avec mes maigres idées et ma petite contribution ? Est-ce qu'il ne serait pas interressant de prendre aussi exemple sur S.A.R.A.H avec le server NodeJS pour les actions et créer des plugins ? On demanderais ainsi de l'aide a la communauté pour developper des plugins actions la grammaire ayant l'air de se faire assez simplement ? Dis moi si ce que je dis est completement a coté .... 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 6 juin 2013 Partager Posté(e) le 6 juin 2013 Non c'est mon propre projet Dobby. Je me suis dit qu'il fallait lui donner un petit coup de jeune Je m'oriente vers la création d'un réseau de neurones pour faire du speech recognition. C'est d'ailleurs vers ça que s'oriente aussi le gars d'AEON : http://aonsquared.co.uk/node/30 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Koma66 Posté(e) le 6 juin 2013 Partager Posté(e) le 6 juin 2013 Salut les gars ! Ce projet m'intéresse grandement également mais malheureusement je suis loin d'avoir les compétences nécessaires à sa mise en place Si jamais je peux aider d'une façon ou d'une autre n'hésitez pas 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remylpat Posté(e) le 9 juin 2013 Auteur Partager Posté(e) le 9 juin 2013 Salut, Si diaoul nous autorise a acceder au git et que j'arrive finalement a compiler je veux bien aider. Faut que je relise les 8 pages car il me semble que deja l'annee derniere j'avais essayer de compiler et j'avais pas reussi 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Diaoul Posté(e) le 9 juin 2013 Partager Posté(e) le 9 juin 2013 Il n'y a besoin d'aucun accès pour la lecture. Ou alors je n'ai pas compris de quoi tu parles. 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Remylpat Posté(e) le 9 juin 2013 Auteur Partager Posté(e) le 9 juin 2013 Donc si hé fais un gît clone je peux ensuite compiler ? Je suis vrailmzent un neewb 0 Citer Lien vers le commentaire Partager sur d’autres sites More sharing options...
Messages recommandés
Rejoindre la conversation
Vous pouvez publier maintenant et vous inscrire plus tard. Si vous avez un compte, connectez-vous maintenant pour publier avec votre compte.