FunAudioLLM:用语音大模型解锁智能语音交互的无限可能

news/2025/2/24 6:53:41

摘要

随着人工智能技术的飞速发展,语音处理已成为人机交互的核心领域之一。本文将介绍 FunAudioLLM 模型家族中的两个重要成员:SenseVoiceSmall 和 CosyVoice2-0.5B,探讨它们在语音识别、语音合成和情感分析中的应用,并提供实用的部署指南。

引言

FunAudioLLM 模型家族简介FunAudioLLM 是阿里巴巴通义实验室推出的开源语音大模型框架,旨在通过语音理解和生成技术增强人机自然交互。其中,SenseVoiceSmall 和 CosyVoice2-0.5B 是两个核心模型,分别专注于语音识别和语音合成。

  1. SenseVoiceSmall 的功能与特点• 多语言语音识别 SenseVoiceSmall 支持超过 50 种语言,经过超过 40 万小时的数据训练,识别性能优于传统模型(如 Whisper)。• 低延迟推理:采用非自回归端到端架构,10 秒音频的推理仅需 70 毫秒,速度是 Whisper-Large 的 15 倍。• 情感识别:能够检测语音中的情感和常见音频事件(如掌声、笑声、咳嗽等)。• 便捷的微调与部署 提供微调脚本和多语言客户端支持(Python、C++、Java 等),方便开发者根据业务需求进行定制。
  2. CosyVoice2-0.5B 的功能与特点• 轻量高效 参数量仅为 0.5B,体积小,计算资源消耗低,适合在资源受限的设备上运行。• 自然语音合成 支持多语言、音色、说话风格和说话者身份的自然语音生成,合成语音接近真人发音。• 零样本学习与情感语音生成 能够在没有上下文的情况下生成情感丰富的语音,适用于有声书、语音助手等场景。

技术架构

深度学习技术 FunAudioLLM 采用了 Transformer 模型、语音量化编码技术和流匹配技术,显著提升了语音处理的性能。• 数据驱动的优化 模型训练依赖大量标注数据,包括语音、文本和情感标签,以提高识别准确性和语音合成的自然度。

API调用

使用硅基流动的api进行调用官网如下:
在这里插入图片描述
包含很多相关模型以及详细的API使用说明。、
相关链接为硅基官网
完成注册后会送2000万token的算力,注册完后需要申请APIkey作为调用API的入口参数。
在这里插入图片描述

语音识别的api为SenseVoiceSmall,使用免费
在这里插入图片描述
具体调用例子为

import requests

url = "https://api.siliconflow.cn/v1/audio/transcriptions"

payload = "-----011000010111000001101001\r\nContent-Disposition: form-data; name=\"model\"\r\n\r\nFunAudioLLM/SenseVoiceSmall\r\n-----011000010111000001101001--\r\n\r\n"
headers = {
    "Authorization": "Bearer apikey",
    "Content-Type": "multipart/form-data"
}

response = requests.request("POST", url, data=payload, headers=headers)

print(response.text)

硅基流动也可在网页中进行调用,点击send会模拟行为。
在这里插入图片描述
相关例子可见
不过需要进行长语音的翻译需要的话需要对脚本进行处理,比如将语音进行分割,然后一段段进行翻译后再拼接起来。
具体代码可见
代码仓库

文本转语音

目前文本转语音使用的是CosyVoice2-0.5B,硅基流动的价格为
¥50/ M UTF-8 bytes
MB与字节的换算:1MB(兆字节)等于1024KB(千字节),而1KB等于1024字节。因此,1MB等于1024 * 1024 = 1048576字节。2. UTF-8编码下汉字的表示:在UTF-8编码中,一个汉字通常用3个字节表示。3. 计算过程:• 1048576字节 ÷ 3 = 349525…1。• 这意味着1MB最多可以表示349525个汉字,还剩下1个字节,这1个字节不足以表示一个完整的汉字。所以,1MB在UTF-8编码下最多可以表示349525个汉字。
即如果1MB的费用是50元,那么每个汉字的成本大约是0.000143元,或者可以更直观地说,每1000个汉字的成本约为0.143元。还是比较便宜的。
调用脚本为

from pathlib import Path
from openai import OpenAI

speech_file_path = Path(__file__).parent / "siliconcloud-generated-speech.mp3"

client = OpenAI(
    api_key="apikey", # 从 https://cloud.siliconflow.cn/account/ak 获取
    base_url="https://api.siliconflow.cn/v1"
)

with client.audio.speech.with_streaming_response.create(
  model="FunAudioLLM/CosyVoice2-0.5B", # 支持 fishaudio / GPT-SoVITS / CosyVoice2-0.5B 系列模型
  voice="FunAudioLLM/CosyVoice2-0.5B:alex", # 系统预置音色
  # 用户输入信息
  input="你能用高兴的情感说吗?<|endofprompt|>今天真是太开心了,马上要放假了!I'm so happy, Spring Festival is coming!",
  response_format="mp3" # 支持 mp3, wav, pcm, opus 格式
) as response:
    response.stream_to_file(speech_file_path)

http://www.niftyadmin.cn/n/5864050.html

相关文章

详细介绍嵌入式硬件设计

嵌入式硬件设计详解 一、嵌入式硬件设计核心概念 嵌入式硬件设计是针对特定应用场景&#xff0c;将处理器、存储器、外设接口等电子元件集成到电路板上&#xff0c;实现特定功能的系统开发过程。其核心目标是 高可靠性、低功耗、小体积 和 成本优化。 二、设计流程与关键步骤…

【简单】209.长度最小的子数组

题目描述 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 子数组 [numsl, numsl1, …, numsr-1, numsr] &#xff0c;并返回其长度。如果不存在符合条件的子数组&#xff0c;返回0。 示例 1&#xff1a; 输入&am…

vim 多个关键字高亮插件介绍

在 Vim 中&#xff0c;可以通过以下方法实现多个关键字的高亮&#xff1a; 1. 使用插件&#xff1a;vim.mark vim.mark 是一个专门用于高亮多个关键字的插件&#xff0c;支持不同颜色的高亮&#xff0c;并提供便捷的跳转功能。 安装方法&#xff1a; 下载插件文件并放入 ~/…

R包的作用及安装指南

一、R包的作用 成功安装R并探索了如何通过RStudio使用R的可能性之后&#xff0c;下一步就是学习安装软件包(R包)。正是这些软件包使R的功能变得强大。一个包由一组或几组函数和命令组成&#xff0c;这些函数和命令用于解决特定的任务(如估计平均值、估计回归系数、绘制直方图)…

DeepSeek在初创企业、教育和数字营销领域应用思考

如今&#xff0c;像 DeepSeek 这样的人工智能工具正在改变企业的运营方式&#xff0c;优化流程并显著提高生产力。通过重复任务的自动化、大量数据的分析以及内容创建效率的提高&#xff0c;组织正在寻找新的竞争和卓越方式。本文介绍了 DeepSeek 如何用于提高三个关键领域的生…

XML DOM4J 三、XPath

1 什么是XPath XPath即为XML路径语言&#xff08;XML Path Language&#xff09;&#xff0c;它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构&#xff0c;提供在数据结构树中找寻节点的能力。起初 XPath 的提出的初衷是将其作为一个通用的、介于XPointe…

flex布局自定义一行几栏,靠左对齐===grid布局

模板 <div class"content"><div class"item">1222</div><div class"item">1222</div><div class"item">1222</div><div class"item">1222</div><div class"…

Docker 自制镜像:Ubuntu 安装 samba+Webmin

Docker 自制镜像&#xff1a;Ubuntu 安装 sambaWebmin 编写 Dockerfile构建镜像运行容器Webmin访问&#xff1a;Webmin文件夹权限设置 修复错误进入 Webmin 后顶部显示错误信息问题 1&#xff1a;ifconfig 和 ip 命令缺失问题 2&#xff1a;MD5.pm 模块缺失 提交修改为新镜像 导…