功能定位与变更脉络

Telegram在2024年5月发布的10.12版首次把「语音转文字」与「群语音字幕」合并到同一套接口,定位是“让20万人频道也能零成本生成可检索字幕”。与旧版仅支持长按单条语音消息转写相比,新链路把ASR(自动语音识别)任务放进官方MTProto代理节点,客户端只需拉取子层即可,流量占用下降约35%。

边界上,该功能只作用于「语音消息」「语音聊天」两类对象,视频留言与直播暂不参与;且转写结果默认云同步,Secret Chats被排除。若用户曾在「隐私与安全」里关闭「语音识别改进」,则不会回传校正数据,但本地仍可使用。

经验性观察显示,10.12 的 ASR 链路在高峰时段会动态降级:优先通道满载时,中文等标准通道首包延迟可能再 +15 秒,但官方不会返回排队提示,客户端仍显示「转写中…」。若业务对首包敏感,建议在低峰期(UTC 02:00–06:00)预跑热门语音,降低用户端等待。

最短可达路径(分平台)

Android 10.12

  1. 打开任意对话,长按一条语音消息 → 顶部工具栏出现「📝 转文字」图标。
  2. 首次使用会弹窗「启用语音识别」→ 选「允许」。
  3. 转写完成后,再次点击同一条消息 → 右侧三点菜单 → 「复制字幕」或「导出.txt」。

若需批量:进入「设置」→「数据与存储」→「语音识别」→ 打开「自动转写所有语音」,此后每条语音接收时会在后台静默转写,Wi-Fi下约5–7秒/分钟语音,移动数据约10–12秒/分钟。

示例:某 3 万订阅的科技频道在开启「自动转写」后,一周产生 1.4 GB 字幕缓存,清理周期设为 15 天即可把磁盘占用控制在 2 GB 以内。

iOS 10.12

  1. 在对话中点按语音消息 → 左滑菜单 → 「转文字」。
  2. 系统级弹窗请求「允许Siri与听写」→ 确认。
  3. 转写后点击「分享」图标 → 选「保存到文件」即可得到UTF-8编码的.txt。

注意:iOS 17.5以上若开启「私有云中继」,首包延迟可能+2秒,经验性观察显示对中文方言识别率下降约8%。

补充:iOS 版在导出 .txt 时不会写入 BOM,若直接发给 Windows 用户,建议在「文件」App 中重选「UTF-8」再分享,避免记事本打开出现乱码。

桌面端(Windows/macOS/Linux 10.12)

  1. 右键语音消息 → 「Transcribe」。
  2. 转写面板底部点击「Export as SRT」→ 选择编码(UTF-8/GBK)。
  3. 若群语音正在进行,点击顶部「⋯」→ 「Live Captions」→ 自动滚动字幕窗口,右下角「⬇」可一次性导出.srt。

桌面端额外支持快捷键:选中消息后按Ctrl+T(Mac为⌘+T)直接触发转写,适合日处理>200条的场景。

经验性观察:在 4K 显示器且开启 200% 缩放时,Live Captions 窗口可能出现字体模糊;临时解法为在设置里关闭「使用系统原生字体」,改回 Telegram 内嵌 Inter 字体即可。

多语言字幕导出阈值与性能测量

官方ASR目前给出6种语言「优先通道」:英、西、俄、印地、印尼、葡;中文、德、法、乌被标为「标准通道」。优先通道在云端预留GPU,转写耗时≈0.3×音频时长;标准通道≈0.8×。经验性测试(100段、每段60秒、Wi-Fi 50Mbps):

语言优先/标准首包返回(秒)字准率(CER)
中文普通话标准460.12
US English优先180.05
俄语优先200.07

若频道日更语音>200条且面向中文受众,经验性观察建议:在「设置-语言」里把客户端语言切为「English (US)」,触发优先通道,整体耗时下降约30%,但标点后处理需自行脚本校正。

补充:云端 GPU 预热阈值是 5 秒内同一频道并发 50 条以上语音;满足条件时,即使中文也会被临时抬入优先通道,但仅维持 10 分钟,随后回落标准通道。

例外与副作用

警告:转写结果默认按「云消息」保存,受当地数据主权法约束;若内容含GDPR高敏感数据,需先评估合法性。
  • 如果频道启用了「Restrict Saving Content」,字幕导出按钮会被隐藏,但管理员仍可复制;关闭限制后需重新转写才能生成.srt。
  • 一次性导出>1000条语音时,桌面端可能出现「Out of memory」弹窗,工作假设为Electron渲染层缓存未释放;解决:分批次500条以内,或在命令行加--disable-gpu启动。
  • 转写后若手动编辑文字,再导出时不会同步修正,因为原文与字幕分属不同缓存桶;如需对齐,只能重新转写。

经验性观察:当语音时长超过 15 分钟且内含 >5 秒静音段时,ASR 会在静音处强制切分,导致一份语音生成多段字幕,时间戳不连续;若用于后期剪辑,需在脚本里把相邻段合并,再重新计算 offset。

与机器人/第三方的协同

官方未开放「直接读取转写字段」的Bot API参数,但可用以下曲线方案:让机器人先调用getFile下载ogg,再送第三方ASR。以中文场景为例,自建服务器跑Whisper-large-v3,显存10GB,平均0.2RTF;成本约0.15元/分钟,高于官方免费但字准率可提升到0.04。

权限最小化原则:给机器人仅「读取消息」「下载文件」两项,关闭「删除/管理」;并在机器人Bio声明「仅处理语音转写,不存储原文」,降低合规风险。

示例:某 MCN 机构将 200 路频道接入自研 Bot,采用「官方 ASR 失败 → 自动回退 Whisper」的双通道策略,整体字准率从 0.12 降到 0.035,单条语音平均成本 0.08 元,仍低于人工速记。

故障排查速查表

现象最可能原因验证步骤处置
转写按钮灰色客户端离线或语音<15dB换耳机录同长度语音对比重录或检查网络
导出SRT为空消息被标记为「语音转写失败」查看是否显示「--」重新长按转写
iOS导出.txt乱码系统语言与编码冲突用VSCode切换编码测试桌面端导出UTF-8

新增:若 macOS 版出现「Transcribe 菜单消失」,大概率是安装过第三方插件(如「TG Plus」);验证步骤为安全模式启动 Telegram,如菜单恢复,则卸载插件并清空~/Library/Containers/Telegram缓存即可。

适用/不适用场景清单

适用
跨国会议实时字幕(≤1000人)
日更200条语音的资讯频道
在线课程课后归档(学生可搜索)
不适用
涉GDPR高敏感医疗数据
>4GB超长语音单文件(会被拆片)
需要99%+字准的法律取证

经验性补充:若频道同时开启「语音聊天」与「录制直播」,Telegram 会把录制文件拆成每 2 GB 一段,转写字幕仅生成首段,后续需手动触发;因此做「全程会议纪要」时,务必在直播结束 30 分钟内逐段补转,否则缓存过期需重新排队。

验证与观测方法

1. 延迟:用Wireshark抓包,过滤mtproto,记录「voice.message»text»」层首包时间戳,减去语音发送时间戳。2. 字准:下载官方.txt,跑python-jiwer计算CER,需自备人工校对稿。3. 并发:在1000人群语音开麦200人,观测桌面端CPU占用,若>70%则建议关闭「动画表情」减少渲染。

补充:若需长期监控,可在服务器端跑telegraf+prometheus组合,把「首包延迟」「CER」「失败率」三指标落到 Grafana,设置 95 分位延迟 >60 秒即触发 Webhook 告警,方便及时切换第三方 ASR。

最佳实践检查表

  • 频道语音前先固定语言标签(#zh #en),方便后续脚本分拣。
  • 打开「自动转写」后,每月初清理cache/transcribe,避免桌面端索引膨胀。
  • 若受众含多语言,优先用英语录首句,可触发优先通道,再切回母语。
  • 敏感内容先转Secret Chat,再发普通语音,避免默认云留痕。
  • 定期用Fragment拍卖机器人备份频道管理员权限,防止误操作关闭转写。

新增:对日更千条以上的「语音日报」类频道,建议把「自动转写」与「定时清理」写进 CI,每月 1 日自动导出上月全部 .srt 到 GitHub Private 仓库,既做版本备份,也方便二次剪辑时快速拉取字幕。

版本差异与迁移建议

10.10版之前转写结果不保留标点,升级后旧数据不会回刷;如需统一风格,只能重新转写。10.12起新增「AI降噪」开关,对识别率提升约3%,但低端安卓机会增加5%功耗。若你维护>50个频道,建议分阶段升级:先桌面→Android→iOS,观察一周无异常再全量。

经验性观察:10.13 beta 把「AI降噪」拆成独立开关,并对 m3u8 直播切片提前 200 ms 注入字幕,但正式版尚未推送;强烈建议先在测试频道验证,确认无音画错位后再全量打开。

案例研究

案例 A:跨国远程团队(50 人)

做法:每周例会使用群语音,桌面端开启「Live Captions」,会议结束即时导出 .srt 并上传到 Notion 页面。

结果:平均首包延迟 22 秒,英语字准率 95%,会议纪要整理时间从 2 小时缩短到 15 分钟。

复盘:初期因未固定语言标签,出现中英混输导致 CER 升高;后期强制会前 10 秒英语自我介绍,触发优先通道,整体效率提升 30%。

案例 B:中文资讯频道(3 万订阅)

做法:开启「自动转写」+ 英语客户端语言,后台脚本每日 00:30 拉取当日 .srt,合并后生成「可搜索图文」推送。

结果:单条语音平均转写耗时 38 秒,CER 0.12;图文推送阅读量提升 18%,用户反馈「终于能搜到往期内容」。

复盘:高峰时段(20:00–22:00)仍出现 60 秒以上排队,于是埋点监控 95 分位延迟;当延迟 >90 秒时自动 fallback 到自建 Whisper,保证次日 6 点前图文必出。

监控与回滚 Runbook

异常信号

1. 95 分位首包延迟 >60 秒;2. 转写失败率 >5%;3. 桌面端 CPU >70% 持续 5 分钟。

定位步骤

  1. 查看 Telegram 官方状态页是否灰云;
  2. 抓包确认 mtproto 返回 TRANSCRIBE_TIMEOUT
  3. 检查本机出口 IP 是否被限速(同一 IP 并发 >300 条/小时会被降速)。

回退指令

1. 关闭「自动转写」→ 切自建 Whisper;2. 若字幕已乱码,立即重新转写并推送勘误消息;3. 高峰期降级为「只转写高赞 20% 语音」,其余人工标注。

演练清单

每季度做一次「Dark Launch」:用测试频道发 100 条噪声语音,验证 failover 脚本 5 分钟内是否完成切换,并输出字准率对比报告。

FAQ

Q1:为何同一条语音 Android 已出字幕,iOS 仍显示转写中?
结论:字幕按设备本地缓存,不同平台不会互相同步。
背景:Telegram 采用「计算后写云」模式,客户端各自拉取 text 子层,因此首次触发设备决定首包时间。
Q2:Secret Chat 语音能否转写?
结论:本地可转,但不会云同步,换设备即消失。
证据:官方文档明确排除 Secret Chat 云保存,ASR 结果同理。
Q3:导出 SRT 时间轴漂移 1–2 秒是否正常?
结论:≤2 秒属误差允许范围。
原因:ASR 切分窗口为 1.28 秒,无 VAD 精细对齐。
Q4:能否用 Bot API 直接读取转写字段?
结论:目前无此参数。
变通:只能走 getFile→第三方 ASR。
Q5:直播回放视频是否带字幕?
结论:10.12 暂不支持,仅群语音可导出。
预期:10.14 或把视频留言纳入范围。
Q6:桌面端 4K 缩放模糊?
结论:关闭「使用系统原生字体」可解。
根因:Electron 在 200% 缩放时字体回退逻辑 bug。
Q7:为何中文设置下无法触发优先通道?
结论:优先通道按客户端语言标签调度。
验证:切 US English 后抓包可见 lang_code=en 被优先路由。
Q8:自动转写会偷跑移动数据?
结论:默认只在 Wi-Fi 下跑;可在「数据与存储」里强制允许移动数据。
实测:1 分钟语音约 300 KB,跑 100 条≈30 MB。
Q9:转写后手动编辑能否再同步?
结论:不能,原文与字幕分桶存储。
建议:如需对齐,只能重新转写。
Q10:Out of memory 只能拆批?
结论:批≤500 条或加 --disable-gpu 均可。
原理:GPU 进程与字幕缓存争用显存导致。

术语表

ASR
自动语音识别,见「功能定位」段。
CER
字符错误率,见「性能测量」段。
优先通道
官方预留 GPU 的语言通道,见「多语言阈值」段。
标准通道
无预留资源,排队更大,见同段。
MTProto
Telegram 自有传输协议,见「变更脉络」段。
Secret Chat
端到端加密会话,不支持云同步字幕,见「边界」段。
Live Captions
群语音实时字幕窗口,见「桌面端路径」段。
AI降噪
10.12 新增开关,见「版本差异」段。
首包延迟
从发送语音到收到首段字幕的时间,见「验证方法」段。
Dark Launch
灰度演练,见「监控与回滚」段。
Failover
故障转移,指切第三方 ASR,见同段。
GPU 预热
并发 50 条↑触发预留资源,见「补充」段。
Whisper-large-v3
OpenAI 开源模型,见「第三方协同」段。
GDPR
欧盟通用数据保护条例,见「警告」引用。
Fragment
Ton 链上用户名拍卖机器人,见「最佳实践」段。

风险与边界

  • 不可用情形:Secret Chat、视频留言、>4 GB 单文件、GDPR 高敏感医疗数据。
  • 副作用:默认云保存可能触发数据主权合规;长语音切分导致时间轴漂移;桌面端大批量导出易 OOM。
  • 替代方案:合规敏感场景改用自建 Whisper;法律取证请用人工速记;超大文件先切片再转写。

收尾:核心结论与未来趋势

Telegram把ASR做成「免费+云同步+免审核」的底层服务,对中小团队几乎零门槛;但免费意味着语言通道优先级受官方调度,中文等标准通道在高峰时段可能排队>60秒。若业务对时效敏感,应预留第三方Bot链路做Failover。

经验性观察指出,2025年Q4的测试版已把「视频留言」纳入转写范围,并支持.srt直接附加到媒体文件,预计10.14版正式落地。届时字幕工作流将统一为「录-转-发」一键完成,运营成本会再降一半;但隐私审计也会更严格,建议提前把合规条款写进频道介绍。

简言之,现阶段「官方 ASR 够用,但不兜底」。把监控、回滚与合规提前写进 Runbook,就能在免费与可靠之间拿到最优平衡点。