Google 在 Kaggle 举办的 Gemma 开放模型微调挑战赛,汇聚了全球开发者,旨在解决大语言模型 (LLM) 在低资源语言环境下的应用难题。参赛者利用自定义数据集和高效微调技术,成功地将 Gemma 模型适配于多种语言和文化场景,包括斯瓦希里语、繁体中文、阿拉伯语、意大利语、古汉语、日语、印地语、哈萨克语和古英语等。这些项目不仅展示了 LLM 在翻译、内容创作、问答等方面的强大能力,也为 AI 赋能全球沟通、促进文化交流提供了新的可能性,预示着 Gemma 3 将进一步拓展多语言 AI 的边界。
🌐 **赋能低资源语言AI应用**:Kaggle 上的 Gemma 开放模型微调挑战赛,旨在解决大语言模型(LLM)在主流语言之外的语言环境中性能不足的问题,通过社区的集体智慧,推动 AI 技术惠及更多语言群体,尤其关注资源匮乏的语言。
💡 **多元化创新应用展示**:开发者们提交了数百个项目,将 Gemma 模型成功应用于斯瓦希里语、阿拉伯语、古汉语、哈萨克语等多种语言,实现了语言理解、翻译、内容生成、文化信息处理等多样化任务,充分展现了 LLM 在不同文化背景下的灵活性和潜力。
🚀 **先进微调技术与实践**:挑战赛鼓励采用参数高效微调 (PEFT) 和检索增强生成 (RAG) 等技术,提升模型在特定语言和任务上的表现。例如,针对斯瓦希里语的项目优化了 Gemma 的指令遵循能力,而 Kyara 项目则通过知识图谱增强了繁体中文问答的准确性。
🌍 **促进文化交流与历史传承**:多个项目聚焦于古老语言和文学作品的AI处理,如古汉语专家和The Old English Gemma,这不仅有助于历史语言的保护和研究,也为跨文化理解和内容创作开辟了新途径。
📈 **Gemma 3 展望与持续发展**:此次挑战赛的成功预示着 Gemma 3 在支持超过140种语言方面的潜力,将进一步巩固 Google 在推动多语言 AI 发展方面的领导地位,鼓励开发者持续贡献数据集和模型,共同构建 AI 赋能的全球沟通未来。
Google 2025-09-23 17:31 北京
细数 Kaggle 社区在 Gemma 开放模型微调挑战赛中的优秀作品,将 LLM 的变革性力量带给世界各地的语言。

作者 / 产品营销经理、AI 开发者 Glenn Cameron我们非常高兴地向社区致敬,感谢他们在 Kaggle 平台 Gemma 开放模型微调挑战赛中做出的杰出贡献!开发者们解决了 AI 领域中的一个关键挑战,即如何将最先进的大语言模型 (LLM) 应用于各种不同的文化及语言环境。🔗 Gemma 开放模型微调挑战赛
https://www.kaggle.com/c/gemma-language-tuning由于训练和评估数据集所采用的语言是主流语言,因此模型往往偏好于高资源语言。这可能会导致性能差异,即最新的 AI 进展可能无法应用在资源较少的语言环境中。此外,这些模型不仅可能缺乏对语言的理解,而且还可能缺乏与文化相关的背景信息,导致它们无法为相关社区提供帮助。社区在语言、歌词、古籍等翻译方面所展现的创造性解决方案,给我们留下了非常深刻的印象。
开发者们提交了数百份竞赛作品,展示了如何将 LLM 的变革性力量带给世界各地的语言。这些项目利用了自定义数据集和高效后训练方法,使 Gemma 能够适应指令遵循、翻译和特定领域。我们鼓励您探索 Kaggle 上的 Notebook,了解这些技术的实际应用效果,赋能您自己的多语言项目。🔗 Gemma
http://deepmind.google/models/gemma🔗 探索 Kaggle 上的 Notebook
https://www.kaggle.com/competitions/gemma-language-tuning/code获得第一名的项目对 Gemma 进行了优化,旨在使其理解斯瓦希里语。这为 2 亿多该语言的使用者带来了全新的可能性。该项目使用参数高效微调技术对 2B、9B 和 27B 参数的 Gemma 模型进行了微调。他们微调的一个着重点是 Gemma "在指令-响应格式方面展现的出众灵活性",这使得模型能够在最少的结构约束下解析指令,并在不同输入格式中生成连贯的回复。
🔗 Gemma 2 Swahili
https://www.kaggle.com/code/alfaxadeyembe/introducing-gemma-2-swahiliKnowledge Yielding Adaptive Retrieval Augmentation (Kyara) 探索了 LLM 微调的检索过程,演示了如何增强 Gemma 在繁体中文环境中生成更准确回复的能力。该项目侧重于使用基于图形的知识检索方法来构建优质问答 (Q&A) 数据集,其灵感源自于人类通过关联概念进行学习的方式。
🔗 Kyara: 适用于 LLM 微调的检索增强https://www.kaggle.com/code/zake7749/kyara-retrieval-augmentation-for-llm-fine-tuning该项目通过微调 Gemma,使其能够胜任处理阿拉伯语的各类任务,包括翻译、内容摘要、故事创作以及对话生成。鉴于阿拉伯语是一种历史悠久的语言,该项目还旨在提升对文学和艺术作品中出现古典阿拉伯语的理解,通过采用多种技术搭建起现代标准阿拉伯语和古典阿拉伯语之间的沟通桥梁。
🔗 ArGemma: 针对阿拉伯语微调 Gemmahttps://www.kaggle.com/code/tahaalselwii/fine-tuning-gemma-for-arabic-argemma该项目侧重于使用经济高效的后训练方法来提高 Gemma 对意大利语的理解能力,以解决 "幻觉" 和 "灾难性遗忘" 等难题。该项目在一个混合数据集上对 2B 和 9B 两个不同参数的模型进行了微调,其中包括使用 LLM-as-a-judge 方法创建的全新指令微调数据集,以确保翻译质量。🔗 适用于意大利语及其他语言的 Gemma 后训练
https://www.kaggle.com/code/anakin87/post-training-gemma-for-italian-and-beyond该项目使用 Gemma 开发了一款 "古汉语专家",旨在理解古汉语文本并生成翻译,突出了 LLM 在历史文化保护方面的潜力。开发者根据综合数据集对 Gemma 进行了微调,以增强语言理解能力,后训练过程中还使用了改善指令遵循的技术。
🔗 古汉语专家: Gemma 2>ChatGPThttps://www.kaggle.com/code/judith007/ancient-chinese-expert-gemma2-chatgpt/notebook?scriptVersionId=216814746该项目解决了 AI 歌词翻译所面临的特有且微妙的挑战,增强了 Gemma 对文化引用和象征意义的敏感度,同时也可兼顾原曲的韵律节奏。多语言数据集包含带有注释的歌词翻译,蕴含了关键的文化背景、情感基调和节奏特征,使模型能够掌握和再现歌词内容的艺术神韵。
🔗 Lyric-Gemma 2: 同一首歌,不同的故事https://www.kaggle.com/code/ansehen/lyric-gemma-2-one-song-different-stories该项目优化了 Gemma 2 JPN 以生成读假名 (Yomigana)/振假名 (Furigana),这些假名可为日语文本阅读提供辅助,帮助语言学习者或遇到复杂日语汉字的读者。虽然目前存在其他基于规则的工具,但 LLM 可以更好地识别罕见的日语汉字,并 "解释句子的上下文,从而准确消除多音日语汉字的歧义"。项目 Notebook 还指出,由于模型仅针对单一翻译任务进行训练,其对话能力有所减弱。
🔗 针对日语汉字假名微调 Gemma 2 JPNhttps://www.kaggle.com/code/iamleonie/fine-tuning-gemma-2-jpn-for-yomigana-with-lora该项目增强了 Gemma 对于印地语数字词汇的数学意义和逻辑理解能力,这类数字词汇因复杂的构词形式给模型带来了挑战,例如用 "दो सौ" 表示 "200" 或用 "ढाई" 表示 "2.5"。该项目使用经过精心设计和人类专家验证的数据集 (包含多种问题类型) 对 9B 模型进行了微调,为 AI 驱动的教育工具、自动化辅导和本地化内容解锁了丰富应用场景。
🔗 数学思维: 针对印地语微调 Gemma 2https://www.kaggle.com/code/dnyaneshwalwadkar/mathematical-minds-fine-tuning-gemma-2-for-hindiGemma-2-9b-kk-it:
学习翻译哈萨克语
该项目针对哈萨克语翻译任务微调了 Gemma 2 9B 模型。哈萨克语采用三种不同的文字 (西里尔文、拉丁文和阿拉伯文),其中西里尔文版本需要的 Token 数量大约是英语的两倍,这给资源有限的训练带来了挑战。该模型的性能基准数据优于 27B Gemma 变体和 Google 翻译,展现了如何使用经济高效的方法针对小众语言调整 LLM。
🔗 Gemma-2-9b-kk-it: 学习翻译哈萨克语https://www.kaggle.com/code/spacedoge/gemma-2-9b-kk-it-learning-to-translate-kazakhTHEODEN:
The Old English Gemma
古英语是有记载的最早的英语语言形式,而该项目赋予了 Gemma 理解和翻译古英语的能力,创建了一个基于 "古英语-现代英语" 语言对的自定义数据集,旨在帮助应对处理历史语言和公开数据有限的难题。该 Notebook 还额外包含一个基于开源冰岛语文本转语音模型的音频生成组件,能够模拟还原出近似的语音效果。
🔗 THEODEN: The Old English Gemmahttps://www.kaggle.com/code/alejopaullier/theoden-the-old-english-gemma适用于日语数学的 Gemma 2 推理: 该项目创建了推理变体,用于执行思维链流程并处理复杂问题。
https://www.kaggle.com/code/inoueu1/gemma-2-reasoning-for-japanese-math多任务 Gemma 2 智能体-总结与翻译: 该项目专注于开发能够执行多项任务的智能体。
https://www.kaggle.com/code/dretii/multitask-gemma2-agents-summarise-translate韩国 AI 医生 Gemma 2: 该项目将 Gemma 应用于使用韩语的医疗应用。
https://www.kaggle.com/code/koohack/korean-ai-doctor-gemma2适用于 "俄语-英语" 医学翻译的 Gemma 微调: 该项目提高了 Gemma 在眼科领域中内容翻译的准确性。
https://www.kaggle.com/code/cheshrcat/gemma-fine-tuning-for-ru-en-medical-translationsGemma PT: 该项目微调了 ShieldGemma 内容分类器,以便检测葡萄牙语中的偏见和虚假信息。
https://www.kaggle.com/code/fernandosr85/gemma-pt?scriptVersionId=200113673如何针对高级推理微调 Gemma 2: 该项目通过实施 Coconut (连续思维链) 范式来增强 Gemma 推理能力。
https://www.kaggle.com/code/victorumesiobi/how-to-fine-tune-gemma-2-for-advanced-reasoning微调 Gemma 实现土耳其语对话: 该项目根据问答数据集对 Gemma 进行了微调,以提高其准确性和对话能力。
https://www.kaggle.com/code/tosrsa/finetune-gemma-turkish-chat微调 Gemma 2 自定义数据集: 该项目针对 "英语-阿拉伯语" 翻译和医学理解对 Gemma 进行了微调。
https://www.kaggle.com/code/jackren000/finetuninggemma2-customizeddataset根据泰卢固语新闻数据集对 Gemma 2 进行微调: 该项目对 Gemma 进行了调整,可以针对新闻文章生成泰卢固语标题。
https://www.kaggle.com/code/saidineshpola/gemma-2-finetuning-on-telugu-news-mi-with-sae微调 Gemma 2 9B 数学推理模型 (俄语): 该项目提升了 Gemma 在解决俄语数学问题方面的表现。
https://www.kaggle.com/code/lhagiimn/finetuned-gemma2-9b-math-reasoning-model-russian全球共有超过 7,000 种语言,AI 在弥合沟通鸿沟方面拥有无限潜力。Gemma 开放模型系列为开发者提供了强大的基础,让他们能够将高性能模型应用于资源稀缺的语言。Kaggle 社区在推动 Gemma 2 应用于多种语言方面所展示的创新和奉献精神令人深受鼓舞。在持续构建一个 AI 赋能全球沟通未来的过程中,Gemma 3 同样令人期待,它经过预训练,可为 140 多种语言提供支持,这为后续构建打下了坚实基础。🔗 Gemma 3
https://blog.google/technology/developers/gemma-3/我们鼓励开发者探索 Gemma 的各种可能性,并分享自己的数据集和模型,继续共同推进多语言 AI 的发展。
阅读原文
跳转微信打开