V2EX 10月08日 18:48
PDF转中文手稿翻译策略探讨
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了一种将PDF书籍转换为中文手稿的翻译方法,包括将PDF文件转换为Markdown格式、利用LLM API进行翻译以及对照式校对等步骤。

有一些不错的书籍没有国内译本,鉴于个人英语水平不支持高效率地阅读英文书籍。

因此想要把文字版的 pdf 书籍自己翻译成中文手稿。

目前想象的思路就是:

1. 利用 pdf 工具把所每页都处理成 markdown ,图片提取出来也用 markdown 格式进行排版。
2. 调用 LLM API 逐个文档翻译。
3. 为了便于校对翻译质量,采取一段一段的上英下中的对照式翻译。

上面的方案中唯一不确定性的在于:
1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
2. 至于 llm 翻译的部分,翻译本身就不需要太长的上下文,就一段一段的慢慢放到后台调 api 并发翻译,然后拼接起来就好了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PDF转换 中文翻译 Markdown LLM API 对照校对
相关文章