Diaoul
SynoCommunity-
Compteur de contenus
2173 -
Inscription
-
Dernière visite
-
Jours gagnés
4
Tout ce qui a été posté par Diaoul
-
Julius (http://julius.sourceforge.jp) à l'air plus au point. Je vais cross compiler ça pour tester. Pas de module python mais la possibilité de lancer julius en mode "module" qui attend une communication TCP/IP sur le port 10500.
-
YEAH test concluant avec pocketsphinx plus rapide que l'API google ! En anglais par contre. Full python
-
Pour info le message d'erreur que j'ai montré plus haut ne s'affiche qu'avec Python 2.7, je crois qu'ils ont changé un truc dans les pointeurs/objets en 2.7. 2.6 c'est nikel http://docs.activestate.com/activepython/2.7/python/whatsnew/2.7.html Voir partie "Capsules"
-
Ok pour le message invalide, en fait ça pourrait marcher si on avait le support oss mais on l'a pas donc pas de souci. Pareil pour moi c'est /dev/dsp4
-
@Sp@ro, je viens de tout recompiler pour mettre sur mon Syno. Quand je lance j'obtiens ça : >>> import pocketsphinx Traceback (most recent call last): File "<stdin>", line 1, in <module> File "sphinxbase.pxd", line 138, in init pocketsphinx (pocketsphinx.c:6844) ValueError: PyCapsule_GetPointer called with invalid PyCapsule object Une idée ? Tu as eu ça ? Pas de souci quand je lance pocketsphinx_continuous, sauf qu'au bout j'ai un message qui me dit que j'ai pas de device audio valide. (Webcam USB avec micro branchée mais comment je peux savoir si elle est reconnue?)
-
D’après ce que j'ai lu, lmtool, l'outil online, se base sur un dict anglais (cmudict) pour recréer le lm depuis les phonèmes. Sur mon PC via Python ça prend un rien de temps de reconnaître "new e-mail", "open browser", etc. Je pense que sur Syno ça doit être assez rapide aussi. Les données française que l'on trouve sur le net sont issues de l'exploitation de milliers d'heures de son enregistré sur des chaines infos françaises il me semble. Je pense que l'on peut trouver plus efficace comme des heures d'enregistrement vocale. Le projet voxforge est en cours mais on dirait qu'il n'y a pas ou peu de contributions donc c'est au point mort.
-
@Sp@ro: Comment tu as pu réduire le lm en français ? Avec quel outil ? Parce que moi j'ai que un .dmp donc du binaire
-
Ok, en fait je viens de voir que j'ai la 0.5.1 sur mon PC... Je vais faire mes essais sur mon NAS donc Avec la 0.7
-
En fait j'ai l'impression qu'il n'y a pas de language model pour le français compatible avec pocketsphinx. Je pense que ça tourne sous sphinx4 cependant.
-
Bah c'est pas grave, je crois que je vais bosser avec de l'anglais uniquement Tu utilises quels modèles anglais ? Et français ? Tu as pas des erreurs avec le français ? Obligé de mettre dictcase à yes pour moi... et la détection est pourrie. Du coup je sais pas si ça vient du wav ou du hmm/lm/dic...
-
Pour ceux que ça intéresse un clappeur avec un prénom, il faudra passer par du keyword spotting et il n'y a pas de logiciel pour ça. Excepté un petit bout de code en développement sur sphinx4 : http://sourceforge.net/projects/cmusphinx/forums/forum/5471/topic/4810538 Donc c'est du java, donc sur Syno ça me parrait impossible, à moins que ce soit vraiment économe.
-
Il y a un plugin Asterisk pout l'utilisation de pocketsphinx : http://scribblej.com/svn/ Pfiou, pas moyen de mettre la main sur une doc simple qui permettrai d'apprendre quelques mots à pocketsphinx et d'avoir le dict, acoustic model et language model qui vont avec
-
@Sp@ro: Tu peux m'envoyer un fichier wav qui fonctionne bien avec pocketsphinx ? J'ai l'impression que le mien n'est pas de bonne qualité car ça reconnait rien du tout.
-
Un lien intéressant mais qui semble encore à l'état de projet et non utilisable http://www.csquad.or...le-avec-julius/
-
Tu peux créer ton propre dictionnaire et lui apprendre juste quelques mots comme "météo" "heure" etc. La détection sera beaucoup plus rapide. Je pense que tu peux utiliser le même lm et hmm tout en modifiant le dict. Ce qui se passe actuellement c'est qu'il reconnait TOUT, ce qui est bien sûr absolument inutile dans notre cas
-
J'ai des segfaults avec le french, c'est sans doute fait pour sphinx pas pocketsphinx
-
Bha j'ai cross compilé pocketsphinx avec succès. C'est assez compliqué je regarde comment ça marche pour l'instant sur mon PC x86 Linux Mint (Ubuntu like) : http://cmusphinx.sourceforge.net/wiki/gstreamer C'est fait pour de l'embedded (mention de ARM dans les sujets sur pocketsphinx) donc parfait pour nos NAS. Comme j'ai réussi à cross compiler maintenant j'essaye déjà de faire marcher quelque chose de correct sur mon PC avec d'autres languages models que ceux pourris par défaut (c'est expliqué dans le lien ci dessus). Il faut notamment que je regarde comment faire un clappeur à la place du bouton "Speak" comme dans la démo. En tout cas quand le bouton speak est déclenché, la détection se fait au fil de l'eau donc ça doit être faisable. On peut faire son propre language model assez simplement : http://cmusphinx.sourceforge.net/wiki/tutoriallm La liste des languages models dispo : http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/ Je vais voir ce que donne le french On va donc avoir PocketSphinx pour la reconnaissance vocale et espeak pour la synthèse vocale. Y'a plus qu'a mettre tout ça ensemble
-
Clamav Spk (Antivirus) [V0.3 Alpha]
Diaoul a répondu à un(e) sujet de bydavy dans Modifications Logiciels
Soyez sympas c'est un puceau du SPK encore ! -
Par contre j'ai pas compris comment ça marchait avec cette histoire de dictionnaire.. Il doit falloir un dictionnaire de grammaire française pour sphinx je pense
-
Pocketsphinx inclut un module python J'ai tout compilé je vais mettre ça dans un SPK pour voir ce que ça donne
-
C'est bien ce qu'il me semblait... C'est un peu merdique comme solution :'( Je suis en train de regarder coté PocketSphinx
-
Où je peux avoir la doc de google speech api ?
-
Est-ce que tu utilises le binaire de syno pour envoyer le son créé sur ton AppleTV ? Parce que c'est un peu moche d'avoir à le kill à chaque fois, il existe peut être un équivalent ?
-
Je me suis fait un petit SPK de test, ça marche pas mal via AirPlay sur ma Freebox. J'attends vos scripts et que Piwi soit dispo pour faire un SPK complet xD Surtout Sp@row, il me manque la partie speech recognition via l'API google. Je prends le Python
-
Hello, C'est super tout ça, tu pourrais mettre tes scripts online ? Sur un gist github par exemple comme ça tu peux les entretenir au fil des versions. Je pense faire un SPK pour tout ça mais j'ai besoin d'en savoir plus sur vos paramètrages. Qu'est-ce qu'il faut faire comme paramétrage ? A part installer les binaires Est-ce qu'il y a des configurations spécifique à faire selon le hardware (micro, haut parleurs, etc.) ? Je vois bien un SPK avec plusieurs parties, une première de paramétrage (micro, haut parleurs, volume, device airplay, clapeur, vitesse, etc), une seconde avec des modules comme : météo heure agenda actualité (RSS) email répondeur Chaque module aurait son son après le clapeur ("météo" pour la météo) puis un paramétrage dédié (ville, aujourd'hui, demain, format du message) J'ai pas mal de projets en ce moment donc je ne commencerai pas avant dans 1 mois. Si des gens veulent aider je suis preneur