Nvidia Blog 09月14日
英国AI项目赋能威尔士语,保护文化并普及公共服务
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英国正通过UK-LLM主权AI计划,利用NVIDIA Nemotron技术构建一个能够理解和生成威尔士语的AI模型。该项目旨在让AI能够以威尔士语进行推理,从而改善医疗、教育和法律等公共服务的可及性,确保威尔士语使用者也能享受到AI带来的便利。该模型基于NVIDIA Nemotron,并在英国最强大的超级计算机Isambard-AI上进行了训练。此举不仅有助于保护威尔士这一古老的凯尔特语言的文化遗产,还响应了威尔士政府振兴语言的号召,目标是到2050年实现百万威尔士语使用者。该技术有望推广至英国其他少数民族语言,并为全球语言多样性保护贡献力量。

🌐 **AI赋能威尔士语,促进公共服务均等化**:UK-LLM主权AI计划成功开发出首个能用威尔士语进行推理的AI模型,基于NVIDIA Nemotron技术,并部署在英国先进的Isambard-AI超级计算机上。此举旨在确保威尔士语使用者能够通过母语获取医疗、教育、法律等关键公共服务,实现AI技术的普惠性,正如英国首相所言,让AI惠及英国的每一个角落。

📜 **保护文化遗产,振兴语言发展**:该AI模型的开发是保护威尔士语这一古老凯尔特语言的重要一步,有助于其在数字化时代保持活力。项目与威尔士政府的“Cymraeg 2050”计划相呼应,旨在通过技术手段提升威尔士语的使用率和影响力,最终实现到2050年拥有百万威尔士语使用者的目标,确保语言的传承与发展。

🛠️ **技术创新与数据挑战**:为克服威尔士语AI训练数据相对稀缺的挑战,开发团队利用NVIDIA NIM微服务将海量英文数据集翻译成威尔士语,创建了庞大的训练数据集。同时,通过与班戈大学等机构的合作,引入了专业的语言学和文化知识,确保模型能准确理解威尔士语的细微差别,如辅音变化等,从而提升AI的语言处理能力。

🌍 **推广至全球,赋能多元语言**:UK-LLM团队计划将此次开发威尔士语模型的成功经验和方法论应用于英国其他少数民族语言,如康沃尔语、爱尔兰语、苏格兰盖尔语等。长远目标是与国际伙伴合作,为非洲和东南亚等地区的语言开发AI模型,从而在全球范围内推广AI在语言保护和文化传承方面的应用。

Celtic languages — including Cornish, Irish, Scottish Gaelic and Welsh — are the U.K.’s oldest living languages. To empower their speakers, the UK-LLM sovereign AI initiative is building an AI model based on NVIDIA Nemotron that can reason in both English and Welsh, a language spoken by about 850,000 people in Wales today.

Enabling high-quality AI reasoning in Welsh will support the delivery of public services including healthcare, education and legal resources in the language.

“I want every corner of the U.K. to be able to harness the benefits of artificial intelligence. By enabling AI to reason in Welsh, we’re making sure that public services — from healthcare to education — are accessible to everyone, in the language they live by,” said U.K. Prime Minister Keir Starmer. “This is a powerful example of how the latest AI technology, trained on the U.K.’s most advanced AI supercomputer in Bristol, can serve the public good, protect cultural heritage and unlock opportunity across the country.”

The UK-LLM project, established in 2023 as BritLLM and led by University College London, has previously released two models for U.K. languages. Its new model for Welsh, developed in collaboration with Wales’ Bangor University and NVIDIA, aligns with Welsh government efforts to boost the active use of the language, with the goal of achieving a million speakers by 2050 — an initiative known as Cymraeg 2050.

U.K.-based AI cloud provider Nscale will make the new model available to developers through its application programming interface.

“The aim is to ensure that Welsh remains a living, breathing language that continues to develop with the times,” said Gruffudd Prys, senior terminologist and head of the Language Technologies Unit at Canolfan Bedwyr, the university’s center for Welsh language services, research and technology. “AI shows enormous potential to help with second-language acquisition of Welsh as well as for enabling native speakers to improve their language skills.”

This new model could also boost the accessibility of Welsh resources by enabling public institutions and businesses operating in Wales to translate content or provide bilingual chatbot services. This can help groups including healthcare providers, educators, broadcasters, retailers and restaurant owners ensure their written content is as readily available in Welsh as they are in English.

Beyond Welsh, the UK-LLM team aims to apply the same methodology used for its new model to develop AI models for other languages spoken across the U.K. such as Cornish, Irish, Scots and Scottish Gaelic — as well as work with international collaborators to build models for languages from Africa and Southeast Asia.

“This collaboration with NVIDIA and Bangor University enabled us to create new training data and train a new model in record time, accelerating our goal to build the best-ever language model for Welsh,” said Pontus Stenetorp, professor of natural language processing and deputy director for the Centre of Artificial Intelligence at University College London. “Our aim is to take the insights gained from the Welsh model and apply them to other minority languages, in the U.K. and across the globe.”

Tapping Sovereign AI Infrastructure for Model Development 

The new model for Welsh is based on NVIDIA Nemotron, a family of open-source models that features open weights, datasets and recipes. The UK-LLM development team has tapped the 49-billion-parameter Llama Nemotron Super model and 9-billion-parameter Nemotron Nano model, post-training them on Welsh-language data.

Compared with languages like English or Spanish, there’s less available source data in Welsh for AI training. So to create a sufficiently large Welsh training dataset, the team used NVIDIA NIM microservices for gpt-oss-120b and DeepSeek-R1 to translate NVIDIA Nemotron open datasets with over 30 million entries from English to Welsh.

They used a GPU cluster through the NVIDIA DGX Cloud Lepton platform and are harnessing hundreds of NVIDIA GH200 Grace Hopper Superchips on Isambard-AI — the U.K.’s most powerful supercomputer, backed by £225 million in government investment and based at University of Bristol — to accelerate their translation and training workloads.

This new dataset supplements existing Welsh data from the team’s previous efforts.

Capturing Linguistic Nuances With Careful Evaluation

Bangor University, located in Gwynedd — the county with the highest percentage of Welsh speakers — is supporting the new model’s development with linguistic and cultural expertise.

Welsh translation of: “The aim is to ensure that Welsh remains a living, breathing language that continues to develop with the times.” — Gruffudd Prys, Bangor University

Prys, from the university’s Welsh-language center, brings to the collaboration about two decades of experience with language technology for Welsh. He and his team are helping to verify the accuracy of machine-translated training data and manually translated evaluation data, as well as assess how the model handles nuances of Welsh that AI typically struggles with — such as the way consonants at the beginning of Welsh words change based on neighboring words.

The model, as well as the Welsh training and evaluation datasets, are expected to be made available for enterprise and public sector use, supporting additional research, model training and application development.

“It’s one thing to have this AI capability exist in Welsh, but it’s another to make it open and accessible for everyone,” Prys said. “That subtle distinction can be the difference between this technology being used or not being used.”

Deploy Sovereign AI Models With NVIDIA Nemotron, NIM Microservices

The framework used to develop UK-LLM’s model for Welsh can serve as a foundation for multilingual AI development around the world.

Benchmark-topping Nemotron models, data and recipes are publicly available for developers to build reasoning models tailored to virtually any language, domain and workflow. Packaged as NVIDIA NIM microservices, Nemotron models are optimized for cost-effective compute and run anywhere, from laptop to cloud.

Europe’s enterprises will be able to run open, sovereign models on the Perplexity AI-powered search engine.

Get started with NVIDIA Nemotron.


Welsh translation: 

Ymestyn Ar Draws yr Ynysoedd: Mae DU-LLM yn Dod â Deallusrwydd Artiffisial i Ieithoedd y DU Gyda NVIDIA Nemotron

Wedi’i hyfforddi ar yr uwch gyfrifiadur Isambard-AI, mae model newydd a ddatblygwyd gan University College London, NVIDIA a Phrifysgol Bangor yn manteisio ar dechnegau a setiau data ffynhonnell agored NVIDIA Nemotron i alluogi rhesymu Deallusrwydd Artiffisial ar gyfer y Gymraeg ac ieithoedd eraill y DU ar gyfer gwasanaethau cyhoeddus gan gynnwys gofal iechyd, addysg ac adnoddau cyfreithiol.

Ieithoedd Celtaidd — gan gynnwys Cernyweg, Gwyddeleg, Gaeleg yr Alban a Chymraeg — yw ieithoedd byw hynaf y DU. Er mwyn grymuso eu siaradwyr, mae menter Deallusrwydd Artiffisial sofran y DU-LLM yn adeiladu model Deallusrwydd Artiffisial yn seiliedig ar NVIDIA Nemotron a all resymu yn Saesneg a Chymraeg hefyd, iaith a siaredir gan tua 850,000 o bobl yng Nghymru heddiw.

Bydd galluogi rhesymu Deallusrwydd Artiffisial o ansawdd uchel yn y Gymraeg yn cefnogi’r ddarpariaeth o wasanaethau cyhoeddus gan gynnwys gofal iechyd, addysg ac adnoddau cyfreithiol yn yr iaith.

“Rwyf am i bob cwr o’r DU allu harneisio manteision deallusrwydd artiffisial. Drwy alluogi deallusrwydd artiffisial i resymu yn y Gymraeg, rydym yn sicrhau bod gwasanaethau cyhoeddus — o ofal iechyd i addysg — yn hygyrch i bawb, yn yr iaith maen nhw’n byw ynddi,” meddai Prif Weinidog y DU, Keir Starmer. “Mae hon yn enghraifft bwerus o sut y gall y dechnoleg dddiweddaraf, wedi’i hyfforddi ar uwch gyfrifiadur deallusrwydd artiffisial mwyaf datblygedig y DU ym Mryste, wasanaethu lles y cyhoedd, amddiffyn treftadaeth ddiwylliannol a datgloi cyfleoedd ledled y wlad.”

Mae prosiect DU-LLM, a sefydlwyd yn 2023 fel BritLLM ac a arweinir gan University College London, wedi rhyddhau dau fodel ar gyfer ieithoedd y DU yn flaenorol. Mae ei fodel newydd ar gyfer y Gymraeg, a ddatblygwyd mewn cydweithrediad â Phrifysgol Bangor Cymru ac NVIDIA, yn cyd-fynd ag ymdrechion llywodraeth Cymru i hybu defnydd gweithredol o’r iaith, gyda’r nod o gyflawni miliwn o siaradwyr erbyn 2050 — menter o’r enw Cymraeg 2050.

Bydd darparwr cwmwl Deallusrwydd Artiffisial yn y DU, Nscale, yn sicrhau bod y model newydd ar gael i ddatblygwyr trwy ei ryngwyneb rhaglennu rhaglenni (API).

“Y nod yw sicrhau bod y Gymraeg yn parhau i fod yn iaith fyw, sy’n anadlu ac sy’n parhau i ddatblygu gyda’r oes,” meddai Gruffudd Prys, uwch derminolegydd a phennaeth yr Uned Technolegau Iaith yng Nghanolfan Bedwyr, canolfan y brifysgol ar gyfer gwasanaethau, ymchwil a thechnoleg y Gymraeg. “Mae deallusrwydd artiffisial yn dangos potensial aruthrol i helpu gyda chaffael y Gymraeg fel ail iaith yn ogystal â galluogi siaradwyr brodorol i wella eu sgiliau iaith.”

Gallai’r model newydd hwn hefyd roi hwb i hygyrchedd adnoddau Cymraeg drwy alluogi sefydliadau cyhoeddus a busnesau sy’n gweithredu yng Nghymru i gyfieithu cynnwys neu ddarparu gwasanaethau sgwrsfot dwyieithog. Gall hyn helpu grwpiau gan gynnwys darparwyr gofal iechyd, addysgwyr, darlledwyr, manwerthwyr a pherchnogion bwytai i sicrhau bod eu cynnwys ysgrifenedig yr un mor hawdd ar gael yn y Gymraeg ag y mae yn Saesneg.

Y tu hwnt i’r Gymraeg, mae tîm y DU-LLM yn anelu at gymhwyso’r un fethodoleg a ddefnyddiwyd ar gyfer ei fodel newydd i ddatblygu modelau Deallusrwydd Artiffisial ar gyfer ieithoedd eraill a siaredir ledled y DU fel Cernyweg, Gwyddeleg, Sgoteg a Gaeleg yr Alban — yn ogystal â gweithio gyda chydweithwyr rhyngwladol i adeiladu modelau ar gyfer ieithoedd o Affrica a De-ddwyrain Asia.

“Mae’r cydweithrediad hwn gydag NVIDIA a Phrifysgol Bangor wedi ein galluogi i greu data hyfforddi newydd a hyfforddi model newydd mewn amser record, gan gyflymu ein nod o adeiladu’r model iaith gorau erioed ar gyfer y Gymraeg,” meddai Pontus Stenetorp, yr athro prosesu iaith naturiol a dirprwy gyfarwyddwr y Ganolfan Deallusrwydd Artiffisial yn University College London. “Ein nod yw cymryd y mewnwelediadau a gafwyd o’r model Cymraeg a’u cymhwyso i ieithoedd lleiafrifol eraill, yn y DU ac ar draws y byd.

Manteisio ar Seilwaith Deallusrwydd Artiffisial Sofran ar gyfer Datblygu Model 

Mae’r model newydd ar gyfer y Gymraeg yn seiliedig ar NVIDIA Nemotron, teulu o fodelau ffynhonnell agored sy’n cynnwys pwysau, setiau data a ryseitiau agored.Mae’r tîm datblygu DU-LLM wedi manteisio ar fodel 49-biliwn-paramedr Llama Nemotron Super a model 9-biliwn-paramedr Nemotron Nano, gan eu hôl hyfforddi ar ddata iaith Gymraeg.

O’i gymharu ag ieithoedd fel Saesneg neu Sbaeneg, mae llai o ddata ffynhonnell ar gael yn y Gymraeg ar gyfer hyfforddiant Deallusrwydd Artiffisial. Felly, er mwyn creu set ddata hyfforddi Cymraeg ddigon mawr, defnyddiodd y tîm ficrowasanaethau NVIDIA NIM ar gyfer gpt-oss-120b a DeepSeek-R1 i gyfieithu setiau data agored NVIDIA gyda dros 30 miliwn o gofnodion o’r Saesneg i’r Gymraeg.

Defnyddion nhw glwstwr GPU drwy blatfform NVIDIA DGX Cloud Lepton ac yn harneisio cannoedd o Uwchsglodion NVIDIA GH200 Grace Hopper ar Isambard-AI — uwchgyfrifiadur mwyaf pwerus y DU, gyda chefnogaeth £225 miliwn o fuddsoddiad gan y llywodraeth ac wedi’i leoli ym Mhrifysgol Bryste — i gyflymu eu llwythi gwaith cyfieithu a hyfforddi.

Mae’r set ddata newydd hon yn ategu data presennol yr iaith Gymraeg o ymdrechion blaenorol y tîm.

Cipio Naws Ieithyddol Gyda Gwerthusiad Gofalus

Mae Prifysgol Bangor, sydd wedi’i lleoli yng Ngwynedd — y sir gyda’r ganran uchaf o siaradwyr Cymraegs — yn cefnogi datblygiad y model newydd gydag arbenigedd ieithyddol a diwylliannol.

Mae Prys, o ganolfan Gymraeg y brifysgol, yn dod â thua dau ddegawd o brofiad gyda thechnoleg iaith ar gyfer y Gymraeg i’r cydweithrediad. Mae ef a’i dîm yn helpu i wirio cywirdeb data hyfforddi a gyfieithir gan beiriannau a data gwerthuso a gyfieithir â llaw, yn ogystal ag asesu sut mae’r model yn ymdrin â naws Gymraeg y mae Deallusrwydd Artiffisial fel arfer yn cael trafferth â nhw — megis y ffordd y mae cytseiniaid ar ddechrau geiriau Cymraeg yn newid yn seiliedig ar eiriau cyfagos.

Disgwylir i’r model, yn ogystal â’r setiau data hyfforddiant a gwerthuso’r Gymraeg, fod ar gael i fentrau a’r sector cyhoeddus eu defnyddio, gan gefnogi ymchwil ychwanegol, hyfforddiant modelu a datblygu rhaglenni.

“Mae’n un peth cael y gallu Deallusrwydd Artiffisial hwn yn bodoli yn y Gymraeg, ond mae’n beth arall ei wneud yn agored ac yn hygyrch i bawb,” meddai Prys. “Gall y gwahaniaeth cynnil hwnnw fod y gwahaniaeth rhwng y dechnoleg hon yn cael ei defnyddio ai peidio.”

Defnyddio Modelau Deallusrwydd Artiffisial Sofran Gyda NVIDIA Nemotron, Microwasanaethau NIM

Gall y fframwaith a ddefnyddiwyd i ddatblygu model DU-LLM ar gyfer y Gymraeg fod yn sylfaen ar gyfer datblygu Deallusrwydd Artiffisial amlieithog ledled y byd.

Mae modelau, data a ryseitiau Nemotron, sy’n cyrraedd y brig, ar gael yn gyhoeddus i ddatblygwyr er mwyn iddynt adeiladu modelau rhesymu sydd wedi’u teilwra i bron unrhyw iaith, parth a llif gwaith. Wedi’u pecynnu fel microgwasanaethau NVIDIA NIM, mae modelau Nemotron wedi’u hoptimeiddio ar gyfer cyfrifiadura cost-effeithiol a rhedeg yn unrhyw le, o liniadur i’r cwmwl.

Bydd mentrau Ewrop yn gallu rhedeg modelau agored, sofran ar y peiriant chwilio Perplexity wedi’i bweru gan Ddeallusrwydd Artiffisial.

Dewch i ddechrau arni gyda NVIDIA Nemotron.

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 威尔士语 语言技术 文化保护 NVIDIA Nemotron UK-LLM 公共服务 人工智能 Welsh language Language Technology Cultural Preservation Public Services
相关文章