PDF书籍中文手稿翻译实践

V2EX 10月08日 22:29

PDF书籍中文手稿翻译实践

本文探讨了将PDF书籍翻译成中文手稿的实践方法，包括PDF转换为Markdown格式、调用LLM API翻译以及对照式校对等步骤，并分析了相关技术的可行性和局限性。

有一些不错的书籍没有国内译本，鉴于个人英语水平不支持高效率地阅读英文书籍。

因此想要把文字版的 pdf 书籍自己翻译成中文手稿。

目前想象的思路就是：

1. 利用 pdf 工具把所每页都处理成 markdown ，图片提取出来也用 markdown 格式进行排版。
2. 调用 LLM API 逐个文档翻译。
3. 为了便于校对翻译质量，采取一段一段的上英下中的对照式翻译。

上面的方案中唯一不确定性的在于：
1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
2. 至于 llm 翻译的部分，翻译本身就不需要太长的上下文，就一段一段的慢慢放到后台调 api 并发翻译，然后拼接起来就好了。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PDF转换 Markdown LLM API 翻译校对

相关文章

Marker: A New Python-based Library that Converts PDF to Markdown Quickly and Accurately

纯文本生产力方案探讨

你会想读哪本书呢？评论区告诉我，就能触发链接……

Panhandle Regional Planning Commission (PRPC) Awards Contract to Carbyn for Cloud-Native Call Handling

棒球明星大谷的前翻译承认犯有银行欺诈罪

棒球明星大谷的前翻译承认犯有银行欺诈罪

Phrase Adds New AI-Powered Localization Enhancements

产品安利社 06月14日

我这知识都学杂了，怎么想都是你们的错……

打破传统！如今的学习利器长这样？步步高V6词典笔体验