BabelDOC 是funstory-ai开发的开源PDF科技论文翻译与双语对照工具库(基于yadt开源库)的官方文档与使用指引站点,核心聚焦解决科技PDF翻译中格式错乱、公式/专业术语处理不佳、多端适配难等痛点,为科研人员、学生、开发者提供高保真的PDF翻译能力,支持在线使用、本地部署、嵌入式开发三种模式,主打保留原文档版式结构的同时实现精准的双语翻译,是专为科技文献打造的AI翻译解决方案。
该工具区别于普通的PDF翻译工具,并非简单的文本提取翻译,而是通过解析+渲染双阶段技术,保留PDF的文本块、图片、公式位置等原始结构,同时适配OpenAI兼容大模型实现专业术语精准翻译,还支持与Zotero等文献管理工具联动,完美适配科研场景的PDF翻译需求,目前核心支持英中互译(2025.3.1新增基础英文目标语言支持),并在持续迭代多语言能力。
核心定位与使用模式
BabelDOC主要为两类用户设计:
- 普通终端用户:通过Immersive Translate - BabelDOC在线Beta服务使用,每月有1000页免费额度,无需技术基础;
- 技术用户/开发者:提供命令行界面(CLI) 和Python API,支持本地源码安装/基于PyPI安装,可直接用于简单翻译任务,也可嵌入其他程序实现定制化翻译能力;
- 需要私有化部署的用户:可通过PDFMathTranslate 2.0(PDFMathTranslate-next)实现自部署+WebUI,获得更多翻译服务支持。
同时该工具深度联动文献管理工具Zotero:Immersive Translate Pro会员可使用专属插件,PDFMathTranslate自部署用户可通过zotero-pdf2zh插件实现Zotero内直接翻译。
核心功能:覆盖科技PDF翻译全场景需求
BabelDOC的功能围绕科技PDF翻译的高保真、专业性、灵活性展开,核心功能可分为基础翻译、PDF精细化处理、定制化配置、工程化能力、生态联动五大类,兼顾普通用户的易用性和开发者的定制化需求:
一、高保真正文+双语PDF翻译
- 多格式输出:支持生成纯译文PDF(单语) 和双语对照PDF,双语模式默认原文档与译文同页并列,也可切换为原译页面交替排列,还能自定义将译文页放在前/原文页放在前;
- 版式无损保留:通过解析PDF的文本块、布局结构,翻译后不改变原文档的公式、图片、表格、段落位置,解决普通翻译工具的格式错乱问题;
- 扫描件适配:提供OCR兼容方案,针对白底黑字的扫描版PDF,可自动添加白色遮罩覆盖原文并生成黑色译文,还支持自动检测重度扫描文档并启用OCR处理;
- 水印自定义:可控制译文PDF的水印模式,支持添加水印、无水印、同时输出两种版本三种选择,满足不同使用场景的版权需求。
二、PDF精细化处理与灵活选译
- 指定页面翻译:无需翻译整份文档,可自定义指定页码/页码范围(如1,3-5,-2表示第1页、3-5页、最后2页),也可仅保留翻译后的页面,大幅提升处理效率;
- 大文档拆分处理:支持按指定页数拆分大PDF为多个部分翻译,完成后自动合并,解决大文档处理卡顿、内存不足问题;
- 兼容性优化:提供一键兼容模式,可跳过PDF清洗、禁用富文本翻译、调整译文排列方式,解决部分PDF阅读器的兼容问题,也可自定义译文的字体家族(衬线/无衬线/手写体);
- 冗余内容清理:可自动移除段落区域的非公式装饰线,同时保护图表区域的结构,解决部分文档装饰元素干扰文本阅读的问题;
- 表格/公式初步支持:提供实验性的表格文本翻译功能,可通过字体/字符模式识别公式文本,避免公式被错误翻译,同时支持添加公式占位提示(暂不推荐,可能影响翻译质量)。
三、专业翻译定制化配置
- 大模型灵活适配:核心支持所有OpenAI兼容的LLM(如gpt-4o-mini、glm-4-flash、deepseek-chat等),可自定义API基础地址、API密钥、模型名称,本地大模型(如Ollama)也可直接适配;
- 专业术语统一:支持加载CSV格式的术语表,术语表包含源语言、目标语言、可选目标语言编码,翻译时系统会自动匹配术语并严格按照术语表翻译,解决专业术语不统一问题,还能自动提取文档术语并保存为术语表;
- 翻译请求管控:可自定义翻译接口的QPS(每秒请求数)、工作线程数,避免接口限流,同时支持忽略翻译缓存强制重译,满足实时更新需求;
- 自定义系统提示词:可添加自定义系统提示词(如Qwen 3的/no_think指令),定制大模型的翻译风格,实现更贴合科研场景的专业翻译。
四、工程化与离线能力
- 离线资产管理:可生成包含所有依赖模型和字体的离线资产包,在无网络的隔离环境中恢复使用,确保不同环境下的处理结果一致,资产包通过SHA3-256哈希校验完整性;
- 配置文件统一管理:支持TOML格式的配置文件,可将所有翻译参数(语言、PDF处理、大模型配置、输出模式等)写入配置文件,一键调用,避免重复命令行参数输入;
- 调试与日志:启用调试模式后可输出详细的中间处理结果,自定义进度报告间隔,方便开发者排查问题,同时支持仅解析PDF生成新文档而不翻译,用于测试PDF解析重构能力;
- 批量处理:支持同时传入多个PDF文件进行批量翻译,大幅提升多文档处理效率,还能自定义翻译的最小文本长度,过滤无效短文本。
五、生态联动与嵌入式开发
- Zotero深度集成:提供专属插件实现Zotero内直接翻译PDF,无需跳转工具,完美适配科研人员的文献管理流程;
- Python API调用:推荐通过pdf2zh next的
high_level.do_translate_async_stream函数调用,支持异步流式翻译,可嵌入自研的科研工具、文献管理系统中; - 命令行快速使用:提供简洁的CLI命令,支持一行代码实现PDF翻译,无需复杂开发,技术用户可快速上手;
- 插件化扩展架构:底层采用解析+渲染的解耦架构,开发者可自定义添加新的OCR、模型、渲染器,实现功能扩展,推动PDF翻译的标准化流水线建设。
核心技术特点
- 双阶段处理架构:将PDF处理分为解析和渲染两个独立阶段,解析阶段提取PDF的文本块、图片、表格等结构,渲染阶段将翻译后的内容重构为新PDF,保留原始版式,区别于传统工具的结构丢失问题;
- 中间表示层设计:生成PDF解析结果的中间表示,可灵活渲染为PDF/其他格式,解决PDF/Word在移动端阅读体验差的问题;
- 多模型兼容:不绑定特定大模型,仅需兼容OpenAI API即可,支持通过litellm访问多个大模型,兼顾翻译质量和成本;
- 高性能处理:支持异步处理、多线程工作池,可自定义线程数和QPS,平衡处理速度和接口压力,大文档拆分处理进一步提升性能。
BabelDOC是一款专为科研场景打造的开源PDF翻译工具,核心价值在于解决科技文献翻译的版式保真和专业精准问题,同时兼顾易用性和工程化能力,既让普通科研人员能快速获得高保真的双语PDF,也为开发者提供了灵活的定制化和嵌入式能力,是科研工作中处理外文PDF的高效工具。
©版权声明: 本网站(猫目,网址:https://maomu.com/ )所有内容,包括但不限于文字、图片、图标、数据、产品描述、页面设计及代码,均受中华人民共和国著作权法及国际版权法律保护,归本站所有。未经书面授权,任何个人、组织或机构不得以任何形式复制、转载、修改、传播或用于商业用途。 对于任何侵犯本网站版权的行为,我们保留追究其法律责任的权利,包括但不限于要求停止侵权、赔偿损失及提起诉讼。





