V2EX 10月08日 22:29
PDF书籍中文手稿翻译实践
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了将PDF书籍翻译成中文手稿的实践方法,包括PDF转换为Markdown格式、调用LLM API翻译以及对照式校对等步骤,并分析了相关技术的可行性和局限性。

有一些不错的书籍没有国内译本,鉴于个人英语水平不支持高效率地阅读英文书籍。

因此想要把文字版的 pdf 书籍自己翻译成中文手稿。

目前想象的思路就是:

1. 利用 pdf 工具把所每页都处理成 markdown ,图片提取出来也用 markdown 格式进行排版。
2. 调用 LLM API 逐个文档翻译。
3. 为了便于校对翻译质量,采取一段一段的上英下中的对照式翻译。

上面的方案中唯一不确定性的在于:
1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
2. 至于 llm 翻译的部分,翻译本身就不需要太长的上下文,就一段一段的慢慢放到后台调 api 并发翻译,然后拼接起来就好了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PDF转换 Markdown LLM API 翻译 校对
相关文章