本地模型

本地转写模型和总结模型,边界说清楚。

HushMemo 把语音转文字模型和总结模型分开说明:转写模型负责把音频变成文字;总结模型负责把复核后的转写整理成笔记、待办、邮件和模板结果。

转写

语音转文字模型

根据存储、速度和准确率选择转写模型。小模型更快,大模型更适合复杂录音和更高准确率需求。

最快转写

Whisper Tiny

体积较小的语音转文字模型,适合快速草稿和短语音笔记。

体积~75 MB
语言多语言
速度最快
下载手动

适合:临时想法、短提醒、粗略草稿,以及存储空间有限的设备。

速度快、体积小,但在噪音、口音、长会议或专业词汇场景下准确率较低。

平衡转写

Whisper Base

适合日常录音的平衡型本地转写模型。

体积~142 MB
语言多语言
速度较快
下载自动

适合:会议、通话、课堂、采访和需要兼顾速度的语音笔记。

下载后可作为实用默认选择。重要转写在总结或分享前仍需要人工复核。

更高准确率

Whisper Small

准确率更高的本地转写模型,适合更长、更复杂的音频。

体积~466 MB
语言多语言
速度较慢
下载手动

适合:较长会议、课堂、采访、多说话人录音,以及细节更多的内容。

占用更多存储和处理时间。长录音仍建议分段复核。

总结

总结和模板模型

转写完成后,本地总结模型会把复核后的文本整理成会议纪要、任务、邮件、学习笔记等结构化输出。

默认推荐

Gemma 3 1B

适合日常笔记的默认本地总结模型。

体积529 MB
上下文2,048 tokens
运行优先使用 GPU
下载自动

适合:会议、快速总结、待办提取和中短转写文本。

下载后本地运行。较长录音可能需要短摘要或分段处理。

中文优先

Qwen 2.5 1.5B

中文总结质量更高,并提供更大的上下文窗口。

体积1.49 GB
上下文4,096 tokens
运行优先使用 CPU
下载手动

适合:中文会议、咨询记录和结构更复杂的模板。

可选手动下载。文件更大,占用更多存储,处理时间也可能更长。

高质量

Gemma 4 E2B

可选高质量模型,适合更长上下文和复杂模板。

体积2.41 GB
上下文8,192 tokens
运行优先使用 GPU
下载手动

适合:较长转写、深度演讲分析和多章节模板。

可选手动下载。速度可能更慢,建议在存储和内存较充足的设备上使用。