AI-Media2Doc – 开源音视频转文档利器，助力高效创作与知识管理

未分类 2025-06-22 13:48

AI-Media2Doc是一款基于AI大模型的开源Web工具，旨在将音视频内容一键转化为多种风格的文档，包括小红书笔记、公众号文章、知识笔记、思维导图和视频字幕等。它无需登录注册，支持本地部署，所有任务记录保存在本地，充分保障用户隐私。

AI-Media2Doc的核心功能包括：

AI-Media2Doc结合了语音识别和大语言模型技术。其语音识别部分基于fast-whisper模型，支持中英混杂、方言识别，准确率高达95%。内容生成部分利用大语言模型，自动生成标题、分段、重点标注，甚至根据平台风格添加emoji和标签。

AI-Media2Doc支持Web应用和本地部署执行。用户可以通过浏览器直接访问使用，也可以通过Docker进行本地部署。

AI-Media2Doc由开源社区贡献者开发，项目遵循MIT协议，完全开源。开发者希望通过开源的方式，让更多用户能够以极低的成本体验音视频转文档服务。

AI-Media2Doc适用于多种业务场景：