ASR | 云雾海的博客

Qwen3-ASR部署前言模型介绍 Qwen3-ASR是阿里的千问团队开发的一个语音识别模型，包括两个版本Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B，以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。 Qwen3-ASR最具特色的是其支持52个语种和方言的语种识别和语音识别，这在传统只能标准英语和普通话的语音识别模型中有较大突破。部署目标本人有一台装有4070TIS的Windows主机，同时有一台性能普通的笔记本。因为个人研究需求，需要将Qwen3-ASR模型部署到一台服务器上，刚好这个Windows主机就可以成为我的测试服务器，而笔记本作为客户端与服务器进行通信调用。部署思路基本的部署思路是，在Windows主机中通过WSL安装miniconda环境，然后部署Qwen3-ASR环境，通过tailscale将主机与笔记本连接，通过ssh在笔记本控制运行WSL，通过tailscale提供的局域网进行通信。本文主要详述Qwen3-ASR部署流程，关于远程部署部分只会简单提及，有需求可以根据提及的部分进行对应搜索。准备工作一台高性能Windows主机，在本文中其显卡为4070TIS，系统为Windows11，后续我们称为服务器。另一台电脑，本文中为笔记本，系统为Windows11，后续我们称为客户端。服务器Windows系统中的tailscale和OpenSSH Server服务。因为我很早之前就已经为这个主机安装了ssh服务器，所以本文默认已经在Windows系统中有ssh服务，并且整个操作均在远端通过ssh访问，而因为服务器没有公网，所以内网穿透由tailscale提供。部署流程 WSL安装经过尝试，直接在Windows上部署Qwen3-ASR模型的话，比较容易安装失败，尽管可以通过docker安装，但是在后续开发上仍然可能出现一些类似的踩坑，毕竟我们是为了进行软件开发，所以在WSL上进行安装是更好的选择。关于WSL的安装，可以参考官方文档进行，我直接默认安装的Ubuntu系统。 tailscale安装安装完WSL后，我们需要在WSL中安装tailscale，这样我们就可以在远端直接用ssh访问WSL的文件系统了，尽管我们也可以先访问Windows，然后在一个Powershell终端里面通过wsl命令访问WSL，但是这种做法无法打开WSL的文件系统，所以直接用tailscale在内部穿透是比较好的方法。关于tailscale的安装，可以参考官方文档。 ssh服务器在tailscale安装完成后，就已经获得了一个新的内网IP，此时我们可以通过ssh连接WSL了，不过在此之前需要为WSL安装ssh服务器，安装命令如下： sudo apt update sudo apt install openssh-server 由于 WSL2 的一些限制（如默认不支持密码登录或端口冲突），我们需要微调一下配置文件：sudo nano /etc/ssh/sshd_config 取消以下内容的注释并根据需要进行修改： Port 2222（建议将端口改为 2222，因为 Windows 自身可能已经占用了 22 端口）。 PasswordAuthentication yes（如果你想用密码登录，请确保这里是 yes）。 ListenAddress 0.0.0.0（允许从任何 IP 访问）。最后保存并退出，按Ctrl+O保存，Enter确认，Ctrl+X退出。然后重启服务：sudo service ssh restart。通过tailscale ip指令可以获取IP地址，然后通过ssh连接WSL。为了方便，我们可以在vscode中安装Remote Development来辅助远程开发。 Miniconda安装我们当然不希望只在WSL中安装一个Qwen3-ASR模型后就不玩其它模型了，所以Python环境管理工具是很重要的，因为我们在WSL中且不需要什么界面环境，所以安装miniconda即可，参考官方文档进行安装。安装完成后，我们创建一个conda环境：conda create -n qwen-asr-env python=3.10 -y。实际上官方推荐的使用python=3.12，但是因为我个人的需求，部分依赖库没有后续更新，所以我选择了3.10版本。之后启动这个环境conda activate qwen-asr-env。 ...