PDF书籍中英文对照翻译实践

V2EX 10月08日 18:34

PDF书籍中英文对照翻译实践

本文探讨了一种将PDF书籍进行中英文对照翻译的方法，包括将PDF转换为Markdown格式，利用LLM API进行翻译，并采取分段对照校对策略。

有一些不错的书籍没有国内译本，鉴于个人英语水平不支持高效率地阅读英文书籍。

因此想要把文字版的 pdf 书籍自己翻译成中文手稿。

目前想象的思路就是：

1. 利用 pdf 工具把所每页都处理成 markdown ，图片提取出来也用 markdown 格式进行排版。
2. 调用 LLM API 逐个文档翻译。
3. 为了便于校对翻译质量，采取一段一段的上英下中的对照式翻译。

上面的方案中唯一不确定性的在于：
1. pdf 解析库是否能力足够高质量的把 pdf 解析成 markdown?
2. 至于 llm 翻译的部分，翻译本身就不需要太长的上下文，就一段一段的慢慢放到后台调 api 并发翻译，然后拼接起来就好了。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

PDF翻译 Markdown格式 LLM API 分段对照校对

相关文章

Marker: A New Python-based Library that Converts PDF to Markdown Quickly and Accurately

纯文本生产力方案探讨

用Markdown可以做什么

Firecrawl: A Powerful Web Scraping Tool for Turning Websites into Large Language Model (LLM) Ready Markdown or Structured Data

产品安利社 07月01日

pdftoquiz - Turn PDFs into quizzes to help you ace your exams

aieditor - An open source AI-powered rich text editor

谷歌文档新增Markdown格式内容导入和导出支持现在使用更加方便了

接到一个需求，找到最新出版的一些外文书籍的PDF版本，然后英文转中文，做成PDF，打印出来。研究了一下SOP： 1、在两个平台可以找到外文书籍免费资源 ①Library...

LiteLLM: Call 100+ LLMs Using the Same Input/Output Format