Sherpa-onnx:下一代Kaldi的离线语音AI工具包

你是否曾经为语音识别、语音合成等AI功能需要联网而烦恼?Sherpa-onnx 的出现,旨在彻底解决这个问题。它是一个基于ONNX Runtime的跨平台语音AI工具包,可以帮助开发者在完全离线的环境下实现语音转文本、文本转语音、说话人识别等12种语音处理功能。本文将带你全面了解这个潜力新星。

截至收录:
Sherpa-onnx stars数:8395
Sherpa-onnx forks数:944

Sherpa-onnx项目目录截图

Sherpa-onnx核心亮点

🌟 全功能语音AI套件:集成语音识别、语音合成、声源分离、说话人识别等12种语音处理功能,满足多样化需求。
🎯 跨平台支持:支持x86、ARM、RISC-V等多种架构,覆盖Android、iOS、HarmonyOS、Linux、Windows等主流操作系统。
🔒 完全离线运行:基于ONNX Runtime,所有语音处理功能无需网络连接,保障数据隐私和安全。
🧩 多语言SDK:提供C++、Python、Java、JavaScript、Go、Rust等12种编程语言的API,方便不同技术栈的开发者集成。

Sherpa-onnx快速开始

只需几步,你就能在本地运行起 sherpa-onnx

  1. 安装Python包
    pip install sherpa-onnx
  2. 运行语音识别示例
    # 下载预训练模型
    wget https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2
    tar xf sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2
    

    运行语音识别

    python3 -m sherpa_onnx ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/encoder-epoch-99-avg-1.onnx \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/decoder-epoch-99-avg-1.onnx \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/joiner-epoch-99-avg-1.onnx \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/tokens.txt \ ./sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20/words.txt \ 4
  3. 测试语音合成
    # 使用TTS功能
    python3 -c "
    import sherpa_onnx
    tts = sherpa_onnx.OfflineTts(...)
    audio = tts.generate( 你好,世界! )
    "

Sherpa-onnx应用场景

场景一:嵌入式设备语音交互:开发者可以在树莓派、RK3588、爱芯派等嵌入式设备上部署完整的语音AI功能,实现离线语音控制。
场景二:移动端语音应用:Android和iOS开发者可以集成SDK,开发完全离线的语音识别、语音合成应用,保护用户隐私。
场景三:工业级语音处理:支持NVIDIA Jetson系列、昇腾NPU等硬件,满足工业环境下的实时语音处理需求。
用户案例:目前,联发科研发的BreezeApp、腾讯会议摸鱼工具TMSpeech、Open-LLM-VTuber等项目都在使用 sherpa-onnx 实现离线语音功能。

Sherpa-onnx链接

k2-fsa / sherpa-onnx项目地址:https://github.com/k2-fsa/sherpa-onnx

本文地址:https://www.tgoos.com/20033

声明:本站资源均整理自互联网,版权归原作者所有,仅供学习交流使用,请勿直接商用,若需商用请购买正版授权。因违规使用产生的版权及法律责任由使用者自负。部分资源可能包含水印或引流信息,请自行甄别。若链接失效可联系站长尝试补链。若侵犯您的权益,请邮件(将 # 替换为 @)至 feedback#tgoos.com,我们将及时处理删除。转载请保留原文链接,感谢支持原创。