Sherpa-onnx:下一代Kaldi的离线语音AI工具包
你是否曾经为语音识别、语音合成等AI功能需要联网而烦恼?Sherpa-onnx 的出现,旨在彻底解决这个问题。它是一个基于ONNX Runtime的跨平台语音AI工具包,可以帮助开发者在完全离线的环境下实现语音转文本、文本转语音、说话人识别等12种语音处理功能。本文将带你全面了解这个潜力新星。
截至收录:
Sherpa-onnx stars数:8395
Sherpa-onnx forks数:944
Sherpa-onnx项目目录截图

Sherpa-onnx核心亮点
🌟 全功能语音AI套件:集成语音识别、语音合成、声源分离、说话人识别等12种语音处理功能,满足多样化需求。
🎯 跨平台支持:支持x86、ARM、RISC-V等多种架构,覆盖Android、iOS、HarmonyOS、Linux、Windows等主流操作系统。
🔒 完全离线运行:基于ONNX Runtime,所有语音处理功能无需网络连接,保障数据隐私和安全。
🧩 多语言SDK:提供C++、Python、Java、JavaScript、Go、Rust等12种编程语言的API,方便不同技术栈的开发者集成。
Sherpa-onnx快速开始
只需几步,你就能在本地运行起 sherpa-onnx:
- 安装Python包:
pip install sherpa-onnx - 运行语音识别示例:
# 下载预训练模型 wget https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2 tar xf sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2运行语音识别
python3 -m sherpa_onnx ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/encoder-epoch-99-avg-1.onnx \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/decoder-epoch-99-avg-1.onnx \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/joiner-epoch-99-avg-1.onnx \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/tokens.txt \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/words.txt \ 4 - 测试语音合成:
# 使用TTS功能 python3 -c " import sherpa_onnx tts = sherpa_onnx.OfflineTts(...) audio = tts.generate( 你好,世界! ) "
Sherpa-onnx应用场景
场景一:嵌入式设备语音交互:开发者可以在树莓派、RK3588、爱芯派等嵌入式设备上部署完整的语音AI功能,实现离线语音控制。
场景二:移动端语音应用:Android和iOS开发者可以集成SDK,开发完全离线的语音识别、语音合成应用,保护用户隐私。
场景三:工业级语音处理:支持NVIDIA Jetson系列、昇腾NPU等硬件,满足工业环境下的实时语音处理需求。
用户案例:目前,联发科研发的BreezeApp、腾讯会议摸鱼工具TMSpeech、Open-LLM-VTuber等项目都在使用 sherpa-onnx 实现离线语音功能。
Sherpa-onnx链接
k2-fsa / sherpa-onnx项目地址:https://github.com/k2-fsa/sherpa-onnx
本文地址:https://www.tgoos.com/20033
