<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>实操指南 on 鬼哥的空间</title><link>https://luoli523.github.io/tags/%E5%AE%9E%E6%93%8D%E6%8C%87%E5%8D%97/</link><description>Recent content in 实操指南 on 鬼哥的空间</description><generator>Hugo -- gohugo.io</generator><language>zh-cn</language><lastBuildDate>Sun, 26 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://luoli523.github.io/tags/%E5%AE%9E%E6%93%8D%E6%8C%87%E5%8D%97/index.xml" rel="self" type="application/rss+xml"/><item><title>Whisper Large V3 Turbo 上手指南：让你的电脑听懂 99 种语言</title><link>https://luoli523.github.io/p/whisper-turbo-guide/</link><pubDate>Sun, 26 Apr 2026 00:00:00 +0000</pubDate><guid>https://luoli523.github.io/p/whisper-turbo-guide/</guid><description>&lt;img src="https://luoli523.github.io/" alt="Featured image of post Whisper Large V3 Turbo 上手指南：让你的电脑听懂 99 种语言" /&gt;&lt;p&gt;你录了 30 分钟的会议、一期播客、一段客户访谈。对方问：&amp;ldquo;能给个文字版吗？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;以前你只有两个选择：&lt;strong&gt;花钱&lt;/strong&gt;（飞书妙记按时长收费、OpenAI Whisper API 按 $0.006 每分钟扣）、&lt;strong&gt;花时间&lt;/strong&gt;（手工转录 1 小时音频，老老实实坐 4 个小时）。&lt;/p&gt;
&lt;p&gt;今天有第三个选择：在自己电脑上跑一个开源模型，&lt;strong&gt;5 分钟出全文 + 时间戳，0 元，0 联网，0 数据外泄&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这个模型叫 &lt;strong&gt;Whisper Large V3 Turbo&lt;/strong&gt;，是 OpenAI 在 2024 年 10 月开源的。它不是新东西，但很多人没意识到它已经强到这种程度——也没意识到上手有多简单。&lt;/p&gt;
&lt;p&gt;&lt;img alt="cover" class="gallery-image" data-flex-basis="426px" data-flex-grow="177" height="941" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://luoli523.github.io/p/whisper-turbo-guide/cover.webp" srcset="https://luoli523.github.io/p/whisper-turbo-guide/cover_hu_f986c33bee18644c.webp 800w, https://luoli523.github.io/p/whisper-turbo-guide/cover_hu_80748c6edcd856dd.webp 1600w, https://luoli523.github.io/p/whisper-turbo-guide/cover.webp 1672w" width="1672"&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="whisper-large-v3-turbo-到底是什么"&gt;Whisper Large V3 Turbo 到底是什么
&lt;/h2&gt;&lt;p&gt;一句话：&lt;strong&gt;OpenAI 开源的、能听懂 99 种语言的语音识别模型，加速版&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;拆开看三件事：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;① 它来自 OpenAI 的开源家族。&lt;/strong&gt;
Whisper 系列从 2022 年就开始迭代，一直是开源届语音识别的事实标准。Large V3 是 2023 年底的旗舰版，质量最好但速度偏慢。&lt;strong&gt;Turbo&lt;/strong&gt; 是 OpenAI 在 2024 年 10 月端出的&amp;quot;快进版&amp;quot;——同样的识别质量，&lt;strong&gt;速度快了大约 8 倍&lt;/strong&gt;。它怎么做到的不是这篇文章的重点（一句话：把负责生成文字的那部分模型砍小了），重点是它&lt;strong&gt;真的就是又快又准&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;② 它的语言覆盖范围是离谱的。&lt;/strong&gt;
99 种语言。中文、英文、日文、韩文、法语、德语、西班牙语、阿拉伯语、印地语、葡萄牙语&amp;hellip;&amp;hellip; 几乎你能想到的主流语言都覆盖了，而且&lt;strong&gt;中英文混读不在话下&lt;/strong&gt;——你那种&amp;quot;这个 feature 我们 Q3 ship 一下&amp;quot;的会议口语，它能正常出文字。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;③ 它能输出三件套。&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;转录&lt;/strong&gt;：把音频原样转成文字&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;翻译&lt;/strong&gt;：把任何语言的音频翻译成英文（注意：只能翻成英文，反过来不行）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;时间戳&lt;/strong&gt;：每一段文字都精确到秒，可以直接生成 SRT 字幕&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img alt="what-is-turbo" class="gallery-image" data-flex-basis="430px" data-flex-grow="179" height="1536" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://luoli523.github.io/p/whisper-turbo-guide/what-is-turbo.webp" srcset="https://luoli523.github.io/p/whisper-turbo-guide/what-is-turbo_hu_7b7d11b2c14ab16.webp 800w, https://luoli523.github.io/p/whisper-turbo-guide/what-is-turbo_hu_18e8d033e4432a8f.webp 1600w, https://luoli523.github.io/p/whisper-turbo-guide/what-is-turbo_hu_90282d97e89966b4.webp 2400w, https://luoli523.github.io/p/whisper-turbo-guide/what-is-turbo.webp 2752w" width="2752"&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="它适合什么场景不适合什么场景"&gt;它适合什么场景，不适合什么场景
&lt;/h2&gt;&lt;p&gt;先说&lt;strong&gt;强项&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;长音频转录&lt;/strong&gt;。1 小时音频，普通 GPU 跑约 2-4 分钟，纯 CPU 也就 10-20 分钟。批量处理几十个文件睡一觉起来都好了。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多语言&lt;/strong&gt;。99 种语言一个模型搞定，不用为每种语言换一个工具。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;要时间戳的场景&lt;/strong&gt;。播客 show notes、视频字幕、采访逐字稿，时间戳省掉你后期对齐的功夫。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;隐私敏感场景&lt;/strong&gt;。法律咨询、医疗对话、内部会议、合同谈判——只要不出本地硬盘，怎么转都安心。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;批量任务&lt;/strong&gt;。一个脚本处理一整个文件夹，不用一个个上传到云端等结果。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;再说&lt;strong&gt;短板&lt;/strong&gt;（别带着不切实际的期待去试）：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;极嘈杂环境&lt;/strong&gt;。路边、菜市场、地铁里录的音，识别率会肉眼可见地下降。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;超低延迟实时同传&lt;/strong&gt;。Whisper 设计上是&amp;quot;段落级&amp;quot;的识别，不是给同声传译那种 200ms 内吐字用的。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;重方言&lt;/strong&gt;。粤语日常对话还能用，但潮汕话、温州话、闽南语就别难为它了。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;强口音英语&lt;/strong&gt;。印度英语、苏格兰英语效果会打折——不是不能用，是别期待 100% 准确。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="和飞书妙记通义听悟openai-api-比到底差在哪"&gt;和飞书妙记、通义听悟、OpenAI API 比，到底差在哪
&lt;/h2&gt;&lt;p&gt;很多人会问：飞书妙记不挺好用吗，为啥还要折腾本地部署？&lt;/p&gt;
&lt;p&gt;我做了张对比表，你看完就知道&lt;strong&gt;它们不是替代关系，是互补的&lt;/strong&gt;：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;Whisper Turbo（本地）&lt;/strong&gt;&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;飞书妙记&lt;/strong&gt;&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;通义听悟&lt;/strong&gt;&lt;/th&gt;
 &lt;th&gt;&lt;strong&gt;OpenAI Whisper API&lt;/strong&gt;&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;价格&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;免费&lt;/td&gt;
 &lt;td&gt;~0.06 元/分钟&lt;/td&gt;
 &lt;td&gt;~0.05 元/分钟&lt;/td&gt;
 &lt;td&gt;$0.006/分钟（约 0.04 元）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;数据隐私&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;✅ 完全本地&lt;/td&gt;
 &lt;td&gt;❌ 上传云端&lt;/td&gt;
 &lt;td&gt;❌ 上传云端&lt;/td&gt;
 &lt;td&gt;❌ 上传云端&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;离线能力&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;✅ 可离线&lt;/td&gt;
 &lt;td&gt;❌ 必须联网&lt;/td&gt;
 &lt;td&gt;❌ 必须联网&lt;/td&gt;
 &lt;td&gt;❌ 必须联网&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;中文质量&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;优秀&lt;/td&gt;
 &lt;td&gt;优秀&lt;/td&gt;
 &lt;td&gt;优秀&lt;/td&gt;
 &lt;td&gt;优秀&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;多语言数量&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;99 种&lt;/td&gt;
 &lt;td&gt;~10 种&lt;/td&gt;
 &lt;td&gt;~15 种&lt;/td&gt;
 &lt;td&gt;99 种（同 Whisper）&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;实时转录&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;一般&lt;/td&gt;
 &lt;td&gt;✅ 强项&lt;/td&gt;
 &lt;td&gt;✅ 强项&lt;/td&gt;
 &lt;td&gt;❌ 不支持&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;说话人区分&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;需额外工具&lt;/td&gt;
 &lt;td&gt;✅ 内置&lt;/td&gt;
 &lt;td&gt;✅ 内置&lt;/td&gt;
 &lt;td&gt;❌ 不支持&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;上手难度&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;中（需装环境）&lt;/td&gt;
 &lt;td&gt;极低&lt;/td&gt;
 &lt;td&gt;极低&lt;/td&gt;
 &lt;td&gt;低&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;&lt;strong&gt;杀手场景&lt;/strong&gt;&lt;/td&gt;
 &lt;td&gt;批量、隐私、长音频&lt;/td&gt;
 &lt;td&gt;实时会议、团队协作&lt;/td&gt;
 &lt;td&gt;实时会议&lt;/td&gt;
 &lt;td&gt;应用集成&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;翻译成大白话&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;会议&lt;/strong&gt;用飞书妙记 / 通义听悟，因为人家有实时转录 + 说话人区分 + 团队协作。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;批量处理一堆历史录音&lt;/strong&gt;用 Whisper Turbo，免费、隐私、速度还快。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;做产品集成&lt;/strong&gt;（比如你在搭一个语音笔记 App）用 OpenAI API，省心。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据不能出公司 / 不能上云&lt;/strong&gt;只有 Whisper Turbo 这一条路。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img alt="use-cases" class="gallery-image" data-flex-basis="430px" data-flex-grow="179" height="1536" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://luoli523.github.io/p/whisper-turbo-guide/use-cases.webp" srcset="https://luoli523.github.io/p/whisper-turbo-guide/use-cases_hu_dc42f826775e31b2.webp 800w, https://luoli523.github.io/p/whisper-turbo-guide/use-cases_hu_558cc57586a97e95.webp 1600w, https://luoli523.github.io/p/whisper-turbo-guide/use-cases_hu_f99a3314b4f4e638.webp 2400w, https://luoli523.github.io/p/whisper-turbo-guide/use-cases.webp 2752w" width="2752"&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="上手实操-零配置浏览器里跑一遍"&gt;上手实操 ①：零配置，浏览器里跑一遍
&lt;/h2&gt;&lt;p&gt;最快的体验路径：&lt;strong&gt;直接在浏览器里跑&lt;/strong&gt;。不用装 Python、不用配 GPU、不用申请 API Key。&lt;/p&gt;
&lt;p&gt;打开这个 Hugging Face Space：&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&lt;strong&gt;&lt;a class="link" href="https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu" target="_blank" rel="noopener"
 &gt;https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu&lt;/a&gt;&lt;/strong&gt;&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;p&gt;操作三步：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;第一次打开会下载约 800MB 的模型&lt;/strong&gt;（之后浏览器缓存，再开秒进）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;上传一段音频文件&lt;/strong&gt;，或者直接用麦克风录一段&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;等它处理完，文字就出来了&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;要求：用 Chrome 或 Edge（要支持 WebGPU），最好有独立显卡。如果只是想感受一下识别质量，找一段你自己的播客录音或者会议片段扔进去——亲自看一遍中文识别率，比看任何 benchmark 数据都直观。&lt;/p&gt;
&lt;p&gt;&lt;img alt="online-demo" class="gallery-image" data-flex-basis="430px" data-flex-grow="179" height="1536" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://luoli523.github.io/p/whisper-turbo-guide/online-demo.webp" srcset="https://luoli523.github.io/p/whisper-turbo-guide/online-demo_hu_4cf1daeaeb991a3a.webp 800w, https://luoli523.github.io/p/whisper-turbo-guide/online-demo_hu_38c42506a48ca594.webp 1600w, https://luoli523.github.io/p/whisper-turbo-guide/online-demo_hu_bb1137e88ce3f129.webp 2400w, https://luoli523.github.io/p/whisper-turbo-guide/online-demo.webp 2752w" width="2752"&gt;&lt;/p&gt;
&lt;p&gt;这条路适合：&lt;strong&gt;先验货再决定要不要本地部署&lt;/strong&gt;。或者偶尔有个小文件需要转一下，不想装环境。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="上手实操-本地一键跑faster-whisper"&gt;上手实操 ②：本地一键跑（faster-whisper）
&lt;/h2&gt;&lt;p&gt;确认效果 OK 之后，下一步是把它装到自己电脑上。&lt;/p&gt;
&lt;p&gt;我推荐 &lt;strong&gt;faster-whisper&lt;/strong&gt; 这个库——它是 Whisper 的一个加速实现，&lt;strong&gt;比官方 whisper 库还快 4 倍左右&lt;/strong&gt;，API 又简单。装一次，以后所有音频都能本地处理。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;安装&lt;/strong&gt;：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-bash" data-lang="bash"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;pip install faster-whisper
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;strong&gt;最小可用代码&lt;/strong&gt;（保存为 &lt;code&gt;transcribe.py&lt;/code&gt;）：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt; 1
&lt;/span&gt;&lt;span class="lnt"&gt; 2
&lt;/span&gt;&lt;span class="lnt"&gt; 3
&lt;/span&gt;&lt;span class="lnt"&gt; 4
&lt;/span&gt;&lt;span class="lnt"&gt; 5
&lt;/span&gt;&lt;span class="lnt"&gt; 6
&lt;/span&gt;&lt;span class="lnt"&gt; 7
&lt;/span&gt;&lt;span class="lnt"&gt; 8
&lt;/span&gt;&lt;span class="lnt"&gt; 9
&lt;/span&gt;&lt;span class="lnt"&gt;10
&lt;/span&gt;&lt;span class="lnt"&gt;11
&lt;/span&gt;&lt;span class="lnt"&gt;12
&lt;/span&gt;&lt;span class="lnt"&gt;13
&lt;/span&gt;&lt;span class="lnt"&gt;14
&lt;/span&gt;&lt;span class="lnt"&gt;15
&lt;/span&gt;&lt;span class="lnt"&gt;16
&lt;/span&gt;&lt;span class="lnt"&gt;17
&lt;/span&gt;&lt;span class="lnt"&gt;18
&lt;/span&gt;&lt;span class="lnt"&gt;19
&lt;/span&gt;&lt;span class="lnt"&gt;20
&lt;/span&gt;&lt;span class="lnt"&gt;21
&lt;/span&gt;&lt;span class="lnt"&gt;22
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-python" data-lang="python"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="kn"&gt;from&lt;/span&gt; &lt;span class="nn"&gt;faster_whisper&lt;/span&gt; &lt;span class="kn"&gt;import&lt;/span&gt; &lt;span class="n"&gt;WhisperModel&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 模型选择：tiny / base / small / medium / large-v3 / large-v3-turbo&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 第一次跑会自动下载，约 1.6GB，缓存到本地&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;model&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;WhisperModel&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;large-v3-turbo&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;device&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;cuda&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;# 没有 GPU 的话改成 &amp;#34;cpu&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;compute_type&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;float16&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;# CPU 用户改成 &amp;#34;int8&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# 开转&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="n"&gt;segments&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;info&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;model&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;transcribe&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="s2"&gt;&amp;#34;meeting.mp3&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;beam_size&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="mi"&gt;5&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="n"&gt;language&lt;/span&gt;&lt;span class="o"&gt;=&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;zh&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="c1"&gt;# 不写会自动检测，写明能加速且更准&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sa"&gt;f&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;检测到语言：&lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="n"&gt;info&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;language&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="s2"&gt;（置信度 &lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="n"&gt;info&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;language_probability&lt;/span&gt;&lt;span class="si"&gt;:&lt;/span&gt;&lt;span class="s2"&gt;.2f&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="s2"&gt;）&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="c1"&gt;# segments 是个生成器，按需取出&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;&lt;span class="k"&gt;for&lt;/span&gt; &lt;span class="n"&gt;seg&lt;/span&gt; &lt;span class="ow"&gt;in&lt;/span&gt; &lt;span class="n"&gt;segments&lt;/span&gt;&lt;span class="p"&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt; &lt;span class="nb"&gt;print&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="sa"&gt;f&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;[&lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="n"&gt;seg&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;start&lt;/span&gt;&lt;span class="si"&gt;:&lt;/span&gt;&lt;span class="s2"&gt;.2f&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="s2"&gt;s -&amp;gt; &lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="n"&gt;seg&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;end&lt;/span&gt;&lt;span class="si"&gt;:&lt;/span&gt;&lt;span class="s2"&gt;.2f&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="s2"&gt;s] &lt;/span&gt;&lt;span class="si"&gt;{&lt;/span&gt;&lt;span class="n"&gt;seg&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;text&lt;/span&gt;&lt;span class="si"&gt;}&lt;/span&gt;&lt;span class="s2"&gt;&amp;#34;&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;跑起来长这样：&lt;/p&gt;
&lt;div class="highlight"&gt;&lt;div class="chroma"&gt;
&lt;table class="lntable"&gt;&lt;tr&gt;&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code&gt;&lt;span class="lnt"&gt;1
&lt;/span&gt;&lt;span class="lnt"&gt;2
&lt;/span&gt;&lt;span class="lnt"&gt;3
&lt;/span&gt;&lt;span class="lnt"&gt;4
&lt;/span&gt;&lt;span class="lnt"&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class="lntd"&gt;
&lt;pre tabindex="0" class="chroma"&gt;&lt;code class="language-fallback" data-lang="fallback"&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;检测到语言：zh（置信度 0.99）
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[0.00s -&amp;gt; 3.20s] 大家好,今天我们来讨论第三季度的产品规划
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[3.20s -&amp;gt; 6.80s] 首先看一下市场反馈数据
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;[6.80s -&amp;gt; 11.50s] 第二点是我们的竞品分析,Q2 我们漏了几个关键信号
&lt;/span&gt;&lt;/span&gt;&lt;span class="line"&gt;&lt;span class="cl"&gt;......
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;strong&gt;几个常见的下一步&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;想要 SRT 字幕文件&lt;/strong&gt;？把 &lt;code&gt;segments&lt;/code&gt; 循环里的 &lt;code&gt;start/end/text&lt;/code&gt; 按 SRT 格式拼出来写文件就行，30 行代码搞定。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;想给视频自动加字幕&lt;/strong&gt;？&lt;code&gt;ffmpeg&lt;/code&gt; 抽音频 → faster-whisper 转录 → 输出 SRT → &lt;code&gt;ffmpeg&lt;/code&gt; 烧录回视频，全程脚本化。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;想要识别说话人&lt;/strong&gt;（&amp;ldquo;这句是 A 说的，那句是 B 说的&amp;rdquo;）？搭配 &lt;code&gt;pyannote.audio&lt;/code&gt;，Whisper 负责识别，pyannote 负责区分说话人。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Mac M 系列芯片&lt;/strong&gt;？可以试试 &lt;code&gt;mlx-whisper&lt;/code&gt;，专门给 Apple Silicon 优化，更快。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;img alt="local-setup" class="gallery-image" data-flex-basis="430px" data-flex-grow="179" height="1536" loading="lazy" sizes="(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px" src="https://luoli523.github.io/p/whisper-turbo-guide/local-setup.webp" srcset="https://luoli523.github.io/p/whisper-turbo-guide/local-setup_hu_3c74976b6fb19b77.webp 800w, https://luoli523.github.io/p/whisper-turbo-guide/local-setup_hu_e39cd868f4f9f6e.webp 1600w, https://luoli523.github.io/p/whisper-turbo-guide/local-setup_hu_d8c2a8ec287108ca.webp 2400w, https://luoli523.github.io/p/whisper-turbo-guide/local-setup.webp 2752w" width="2752"&gt;&lt;/p&gt;
&lt;p&gt;第一次跑会卡在下载模型那一步（1.6GB 不算小），后续就秒启动了。如果下载慢，记得设个 Hugging Face 镜像源。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="takeaway"&gt;Takeaway
&lt;/h2&gt;&lt;p&gt;回顾一下，Whisper Large V3 Turbo 这事就三句话：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;它是什么&lt;/strong&gt;：OpenAI 开源的语音识别模型，99 种语言通吃，识别质量已经达到了&amp;quot;日常工作可用&amp;quot;的水平，速度比上一代快 8 倍。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;什么时候用它&lt;/strong&gt;：批量长音频、需要隐私、要时间戳、要离线——这四种场景任何一种命中，就值得装。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;什么时候别折腾&lt;/strong&gt;：实时会议转录用飞书妙记 / 通义听悟，偶尔几分钟的小文件用免费云服务，做产品集成用 OpenAI API。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;下一步只做两件事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;先点开 &lt;a class="link" href="https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu" target="_blank" rel="noopener"
 &gt;在线 demo&lt;/a&gt; 用你自己的录音试一遍——30 秒就能判断它对你的口音、行业术语适不适用。&lt;/li&gt;
&lt;li&gt;如果觉得行，&lt;code&gt;pip install faster-whisper&lt;/code&gt;，把上面那段代码存成 &lt;code&gt;transcribe.py&lt;/code&gt;，下次再有音频要转，&lt;strong&gt;自己说了算&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id="参考资料"&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://huggingface.co/openai/whisper-large-v3-turbo" target="_blank" rel="noopener"
 &gt;Whisper Large V3 Turbo — OpenAI 官方仓库&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://huggingface.co/onnx-community/whisper-large-v3-turbo" target="_blank" rel="noopener"
 &gt;ONNX 社区版（适合浏览器/WebGPU）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/SYSTRAN/faster-whisper" target="_blank" rel="noopener"
 &gt;faster-whisper — SYSTRAN/CTranslate2 实现&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://huggingface.co/spaces/webml-community/whisper-large-v3-turbo-webgpu" target="_blank" rel="noopener"
 &gt;浏览器在线 Demo（WebGPU）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/pyannote/pyannote-audio" target="_blank" rel="noopener"
 &gt;pyannote.audio — 说话人区分&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/ml-explore/mlx-examples/tree/main/whisper" target="_blank" rel="noopener"
 &gt;mlx-whisper — Apple Silicon 优化版&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>