AI图片识别英语学习神器开发实录——让单词和图片一起飞！

你是否曾苦恼于背单词时脑海里只有抽象的英文，却没有生动的画面？有没有想过，上传一张图片，AI就能帮你识别出图片中的主要物品，自动生成最贴切的英文单词，还能顺便把发音和例句都打包送上？今天就带大家揭秘一款“图片识别+英语学习”神器的开发全过程，代码细节全都给你扒出来，绝不藏私！😎🧐

项目简介

本项目是一款基于React 19 + Vite 7的前端应用，用户只需上传一张图片，系统会自动识别图片内容，给出最能描述图片的英文单词，并生成相关解析和例句，还能一键播放单词发音。图片识别用的是Kimi的多模态大模型，语音合成则交给了火山引擎豆包语音。整个流程丝滑流畅，体验堪比“AI小老师”！🤖📸

技术选型与架构亮点

前端框架

构建工具

样式处理

AI接口调用

语音合成

环境变量管理

.env.local

核心功能流程拆解

1. 图片上传与预览

用户通过PictureCard组件上传图片，利用FileReader实现本地预览，体验即点即看：

const updateImageData = (e: React.ChangeEvent<HTMLInputElement>) => {    const file = e.target.files?.[0]    if(!file) return    // 预览    return new Promise((resolve, reject) => {        const reader = new FileReader()        reader.readAsDataURL(file)        reader.onload = () => {            const data = reader.result as string            setImgPreview(data)            submit(data)            resolve(data)        }        reader.onerror = () => {            reject(new Error('读取文件失败'))        }    })}

上传图片的过程就像“投喂”AI一张美照，AI立刻开始分析，效率堪比吃瓜群众！🍉👀

2. Kimi模型图片识别与单词生成

重点来了！图片识别和单词生成的核心逻辑都在submit函数里：

构造请求体，包含图片的base64数据和自定义Prompt，要求模型返回图片描述、代表性单词、例句、详细解释和互动回复。调用Kimi多模态API，模型自动分析图片内容，输出结构化JSON。解析返回结果，提取单词、例句、解释和回复，全部展示在页面上。

const submit = async (data: string) => {    setImgPreview(data)    const endpoint = "https://api.moonshot.cn/v1/chat/completions"    const headers = {        "Authorization": `Bearer ${import.meta.env.VITE_KIMI_API_KEY}`,        "Content-Type": "application/json"    }    setWord('分析中...')    const response = await fetch(endpoint, {        method: 'POST',        headers,        body: JSON.stringify({            model: "moonshot-v1-8k-vision-preview",            messages: [                {                    role: 'user',                    content: [                        { type: 'image_url', image_url: { url: data } },                        { type: 'text', text: userPrompt }                    ]                }            ]        })    })    const res = await response.json()    const replyData = JSON.parse(res.choices[0].message.content)    setWord(replyData.representative_word)    setSentence(replyData.example_sentence)    setExplaination(replyData.explanation)    setReplys(replyData.example_replys)    // 获取音频    const audioUrl = await generateAudio(replyData.representative_word)    setAudio(audioUrl)}

代码分析与亮点解读

Prompt设计

userPrompt

异步数据流

错误处理

性能优化

3. 单词发音合成与播放（简略展示）

单词发音由generateAudio函数调用火山豆包TTS接口实现，返回base64音频数据后用createBlobUrl转成可播放URL，点击小喇叭即可播放：

export async function generateAudio(text: string) {    // ...请求火山豆包TTS接口，返回音频base64...    return createBlobUrl(audioBase64)}

发音功能就像给单词装上了“语音外挂”，再也不用担心读错啦！🔊😆

火山豆包TTS的具体操作使用流程请参考我的这篇文章→ 火山豆包TTS调用全过程分析

4. 运行效果展示

（AI识别结果让人忍不住想说：这也太懂我了吧！🤩👏）

开发心得与趣味总结

useState

.env.local

本文代码已全部开源→ 代码仓库地址✨

项目简介

技术选型与架构亮点

核心功能流程拆解

1. 图片上传与预览

2. Kimi模型图片识别与单词生成

代码分析与亮点解读

3. 单词发音合成与播放（简略展示）

4. 运行效果展示

开发心得与趣味总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签