Qwen3-ASR远程部署

Qwen3-ASR部署 前言 模型介绍 Qwen3-ASR是阿里的千问团队开发的一个语音识别模型,包括两个版本Qwen3-ASR-1.7B 与 Qwen3-ASR-0.6B,以及一个创新的语音强制对齐模型 Qwen3-ForcedAligner-0.6B。 Qwen3-ASR最具特色的是其支持52个语种和方言的语种识别和语音识别,这在传统只能标准英语和普通话的语音识别模型中有较大突破。 部署目标 本人有一台装有4070TIS的Windows主机,同时有一台性能普通的笔记本。因为个人研究需求,需要将Qwen3-ASR模型部署到一台服务器上,刚好这个Windows主机就可以成为我的测试服务器,而笔记本作为客户端与服务器进行通信调用。 部署思路 基本的部署思路是,在Windows主机中通过WSL安装miniconda环境,然后部署Qwen3-ASR环境,通过tailscale将主机与笔记本连接,通过ssh在笔记本控制运行WSL,通过tailscale提供的局域网进行通信。本文主要详述Qwen3-ASR部署流程,关于远程部署部分只会简单提及,有需求可以根据提及的部分进行对应搜索。 准备工作 一台高性能Windows主机,在本文中其显卡为4070TIS,系统为Windows11,后续我们称为服务器。 另一台电脑,本文中为笔记本,系统为Windows11,后续我们称为客户端。 服务器Windows系统中的tailscale和OpenSSH Server服务。因为我很早之前就已经为这个主机安装了ssh服务器,所以本文默认已经在Windows系统中有ssh服务,并且整个操作均在远端通过ssh访问,而因为服务器没有公网,所以内网穿透由tailscale提供。 部署流程 WSL安装 经过尝试,直接在Windows上部署Qwen3-ASR模型的话,比较容易安装失败,尽管可以通过docker安装,但是在后续开发上仍然可能出现一些类似的踩坑,毕竟我们是为了进行软件开发,所以在WSL上进行安装是更好的选择。 关于WSL的安装,可以参考官方文档进行,我直接默认安装的Ubuntu系统。 tailscale安装 安装完WSL后,我们需要在WSL中安装tailscale,这样我们就可以在远端直接用ssh访问WSL的文件系统了,尽管我们也可以先访问Windows,然后在一个Powershell终端里面通过wsl命令访问WSL,但是这种做法无法打开WSL的文件系统,所以直接用tailscale在内部穿透是比较好的方法。关于tailscale的安装,可以参考官方文档。 ssh服务器 在tailscale安装完成后,就已经获得了一个新的内网IP,此时我们可以通过ssh连接WSL了,不过在此之前需要为WSL安装ssh服务器,安装命令如下: sudo apt update sudo apt install openssh-server 由于 WSL2 的一些限制(如默认不支持密码登录或端口冲突),我们需要微调一下配置文件:sudo nano /etc/ssh/sshd_config 取消以下内容的注释并根据需要进行修改: Port 2222(建议将端口改为 2222,因为 Windows 自身可能已经占用了 22 端口)。 PasswordAuthentication yes(如果你想用密码登录,请确保这里是 yes)。 ListenAddress 0.0.0.0(允许从任何 IP 访问)。 最后保存并退出,按Ctrl+O保存,Enter确认,Ctrl+X退出。 然后重启服务:sudo service ssh restart。 通过tailscale ip指令可以获取IP地址,然后通过ssh连接WSL。 为了方便,我们可以在vscode中安装Remote Development来辅助远程开发。 Miniconda安装 我们当然不希望只在WSL中安装一个Qwen3-ASR模型后就不玩其它模型了,所以Python环境管理工具是很重要的,因为我们在WSL中且不需要什么界面环境,所以安装miniconda即可,参考官方文档进行安装。 安装完成后,我们创建一个conda环境:conda create -n qwen-asr-env python=3.10 -y。实际上官方推荐的使用python=3.12,但是因为我个人的需求,部分依赖库没有后续更新,所以我选择了3.10版本。 之后启动这个环境conda activate qwen-asr-env。 ...

March 18, 2026 · 云雾海