Tag: 语音识别

保存Android股票语音识别引擎的audioinput

我正在试图保存在一个文件的audio数据收听android的语音识别服务。 其实我实现RecognitionListener这里解释: 在Android上的语音到文本 将数据保存到缓冲区,如下所示: 捕获发送到Google语音识别服务器的audio 并将缓冲区写入一个Wav文件,如在这里。 Android将Http Streaming的原始字节logging到WAVE文件中 我的问题是如何得到适当的audio设置保存在wav文件的标题。 其实我在播放wav文件时只听到奇怪的噪音,用这个参数, short nChannels=2;// audio channels int sRate=44100; // Sample rate short bSamples = 16;// byteSample 或者与此无关: short nChannels=1;// audio channels int sRate=8000; // Sample rate short bSamples = 16;// byteSample 令人困惑的是,从logcat中查看语音识别任务的参数,我首先设置PLAYBACK采样率为44100HZ : 12-20 14:41:34.007: DEBUG/AudioHardwareALSA(2364): Set PLAYBACK PCM format to S16_LE (Signed 16 bit Little Endian) […]

我可以使用语音识别来编写SQL吗?

当我input时我感到手腕疼痛,我想用语音识别开始编写SQL语句,存储过程和视图。

如何:语音命令到Android应用程序

网上有许多教程,将语音识别添加到Android应用程序。 他们往往混淆,编码出版商从来没有问题。 我需要一个简单的教程与完整的编码,为我的应用程序添加语音识别。

任何类似OpenCV的C / C + +库audio处理?

有没有更多的东西,类似(精神上)OpenCV,但处理audio和从中获取一些情报? 能力范围可以从: 多平台audio捕捉和audio播放 DSP – audio滤波器 音调检测 音调属性分析 音合成(各种标准波形) 识别给予一些识别语料库和模型(例如确定乐器,节拍,人类语言等) – 可能使用其他开源项目的实际识别部分(狮身人面像) 语音/音乐合成 – 可以再次使用一些其他的开源项目(节日) 如果库工作在原始audio格式/编码转换是由其他现有库(ffmpeg的sa)处理的外部问题,那就好了。 我不是这个领域的专家,但是需要使用这样的API,并且想知道这样的库是否存在,所以我select确定function的术语可能不是最好的,所以专家可能想要编辑这个问题。

语音识别软件开发人员

那么文件最后说了,我需要在我的手腕上轻松几个月。 因为我是一名.NET开发人员,这可能会使我的生活停滞一段时间,而我并不急于做这件事。 这就是说,开发人员有没有什么好的免提select? 任何人都有成功使用任何语音识别软件在那里? POSTSCRIPT:我已经恢复了我的arm,双手编程不成问题。 龙自然地说,工作得不错,但速度较慢,不像键盘那样编程比我想象的要快。

如何在iOS SDK中使用语音识别?

我知道SIRI-Services没有公开的API,但是有简单的语音识别API吗? 所以,如果我有一个文本字段,用户点击该文本字段,一个典型的麦克风button的键盘出现,如果他按下它的话语得到承认和转换成一个string对象? 或者这个button可能默认显示?

Android中的离线语音识别(JellyBean)

Google似乎已经为Google第三方应用提供了离线语音识别function。 它正在被名为Utter的应用程序使用。 有没有人看到如何使用这个离线语音录制做简单的语音命令的任何实现? 你只是使用普通的SpeechRecognizer API,它会自动工作吗?

C#语音识别 – 这是用户说的吗?

我需要编写一个应用程序,使用语音识别引擎 – 内置的Vista或第三方 – 可以显示一个单词或短语,并识别用户何时读取它(或近似值)。 我还需要能够在不同语言之间快速切换,而不必更改操作系统的语言。 用户将在很短的时间内使用该系统。 应用程序需要工作,而不需要首先训练识别引擎对用户的声音。 如果这可以在Windows XP或更低版本的Windows Vista上运行,那也是太棒了。 可选地,系统需要能够以用户select的语言将屏幕上的信息读回给用户。 我可以使用预先录制的配音来解决这个规范,但是最好的方法是使用文本到语音引擎。 谁能为我推荐一些东西?

如何将语音识别添加到Unity项目?

我目前正在使用Vuforia的增强现实项目,使用语音识别来控制Unity中的对象。 我只是期待着一个教程,但我找不到一个。 你能指导我从哪里开始呢! 非常感谢您的帮助!

Google语音识别API结果为空

我正在执行对Google Cloud Speech API的asynchronous请求,而且我不知道如何获取操作结果: 请求POST: https ://speech.googleapis.com/v1beta1/speech: asyncrecognize 身体: { "config":{ "languageCode" : "pt-BR", "encoding" : "LINEAR16", "sampleRate" : 16000 }, "audio":{ "uri":"gs://bucket/audio.flac" } } 哪个返回: { "name": "469432517" } 所以,我做了一个POST: https : //speech.googleapis.com/v1beta1/operations/469432517 哪个返回: { "name": "469432517", "metadata": { "@type": "type.googleapis.com/google.cloud.speech.v1beta1.AsyncRecognizeMetadata", "progressPercent": 100, "startTime": "2016-08-11T21:18:29.985053Z", "lastUpdateTime": "2016-08-11T21:18:31.888412Z" }, "done": true, "response": { "@type": "type.googleapis.com/google.cloud.speech.v1beta1.AsyncRecognizeResponse" […]