复旦教授邱锡鹏团队创立模思智能，获顶级VC支持，发布语音大模型MOSS-Speech

教授创业再次获得顶级VC支持。

投中嘉川CVSource显示，上海模思智能科技有限公司（简称“模思智能”）完成首轮融资。投资方为IDG资本、华为哈勃、元禾控股和智谱系机构星连资本。

模思智能由复旦大学知名教授邱锡鹏和他的学生创办。邱锡鹏是国内AI领域最知名的教授之一。他的专著《神经网络与深度学习》是国内“人工智能入门必读书”。2023年，他还带领团队发布了大模型MOSS，成为最早破圈的开源中文大语言模型。

模思智能主要从事语音大模型研发，近期发布了MOSS-Speech。按其官方说法，这标志着国产AI迈入了“真语音到语音交互”的新阶段。

01.谁是邱锡鹏？复旦教授，人工智能的布道者

2024年11月，模思智能（Moss Intelligence）在上海成立。这家年轻的公司立志于推动多模态交互与具身智能的产业化落地，希望通过更“懂人”的AI交互系统，重塑语音与视觉的结合方式。

模思智能的核心技术方向，是通过对用户提供的上下文与情境进行深度理解，构建自然、拟人的交互体验。公司当前的主营业务聚焦在语音大模型应用领域，产品主要服务于游戏解说、直播电商、新闻播报等语音内容密集型场景。

能让模思智能在天使轮阶段就吸引IDG资本、华为哈勃、元禾控股等顶级机构投资的，离不开公司创始人复旦大学计算机学院教授邱锡鹏。

邱锡鹏1997年考入复旦大学，先后获得理学学士和博士学位，并自2007年起留校任教。目前，他是复旦大学计算机学院教授、博士生导师，也是中国自然语言处理（NLP）领域的重要推动者。

有趣的是，邱锡鹏最初的本科专业并非计算机。在进入复旦大学之前，他几乎没有接触过编程。正是在复旦的通识课程中，他第一次接触到计算机科学，并因此深受吸引，最终转入该领域。

根据复旦大学官网信息，邱锡鹏主要研究方向包括自然语言处理与深度学习。他在ACL、EMNLP、AAAI、IJCAI 等国际顶级会议和期刊上发表论文50余篇，是国内外学界高度认可的学者。他主持开发的开源自然语言处理工具 FudanNLP 与 FastNLP，至今仍被广泛使用。

2015年邱锡鹏入选首届“中国科协青年人才托举工程”；2018年则荣获中国中文信息学会“钱伟长中文信息处理科学技术奖——汉王青年创新奖”。

话说2015年时，复旦大学首次开设“神经网络与深度学习”课程。由于当时没有合适的教材，邱锡鹏便决定亲自编写讲义。后来，这份讲义被扩写成专著《神经网络与深度学习》，成为国内AI教育领域的经典读物，被誉为“人工智能入门必读书”。邱锡鹏也由此成为中国人工智能领域布道者式的人物。

不过真正让邱锡鹏“出圈”的，是在2023年春节，他带领团队迅速推出了开源中文大语言模型MOSS。这款以科幻电影《流浪地球2》中量子超级计算机命名的模型，一经发布便登上微博热搜。

当时，OpenAI发布ChatGPT不久，国内大模型尚处于空白。邱锡鹏团队的成果是国内首个开放式中文对话大模型，不仅填补了中文语境下的技术空白，也推动了国内大模型的开源研究生态。

而这次创办的模思智能，其中文名“模思”，正是“MOSS”的音译。可见这家公司正是此前科研成果的转化项目。

从工商信息看，邱锡鹏目前担任模思智能首席科学家，同时也是最大股东，持股约29%。

图片来源：投中嘉川CVSource

公司联合创始人兼CEO李世民，则是邱锡鹏的学生，复旦大学计算与智能创新学院2022级的硕博连读研究生。

这位与唐朝皇帝同名的年轻人，在学术界已崭露头角——据复旦大学官方公众号今年6月报道，李世民作为第一作者在CCF-A类国际会议上发表了3篇论文，并深度参与科技部“新一代人工智能2030”重点研发项目，在拟人化人机交互领域取得重要突破。

在创业之前，他主导推出了SpeechGPT——国内首个离散化端到端语音交互模型。该模型打破了传统语音系统“语音识别→对话模型→语音合成”的三级串联架构，实现了“语音输入→语音输出”的直接交互方式，被视为“语音版GPT”的早期雏形。

2024年，李世民还带领团队开发跨学科协作平台“学桥”。这款产品“学桥”整合了学校信息办和图书馆提供的10万余篇官方论文、数千名教师以及学生达人信息，打破学科交叉合作的信息壁垒。

在接受复旦大学公众号采访时，他说“将前沿技术真正转化成具有社会价值的产品，是我们的目标。”可见，李世民是邱锡鹏的得意门生，不论是在科研还是产品上，延续了导师对学术的探索与面向应用的技术导向。

目前，模思智能正围绕其核心技术打造对标谷歌Gemini Pro 的多模态大模型与智能体内容创作平台，涵盖高表现力的音视频理解与生成能力。最新进展显示，在邱锡鹏和李世民的带领下，模思智能近期发布了MOSS-Speech。

据官方介绍，这款模型标志着语音AI正式进入“语音到语音”的交互阶段。它与传统“语音识别—文本生成—语音合成”的级联方案不同，MOSS-Speech 实现了直接从语音理解到语音生成，无需文本中介。该模型可在生成回答的同时捕捉语调、情绪、笑声等非文字信号，使机器“说话”更自然、更具人性。

2023年，在接受复旦大学专访时，邱锡鹏说：“长远来看，我们期待把MOSS作为一个通向通用人工智能的基座，让它变成一个像科幻片角色的真实存在。我觉得通用人工智能由科幻步入现实，应该不会很远，也许5到10年。”

从科研到创业，邱锡鹏和他的学生们，正以商业的力量，把“未来”一点点拉近现实。

参考资料：

1.CIPS大模型与生成，真-语音到语音交互：MOSS-Speech 正式发布

2.复旦大学，研究成果将会开源！复旦MOSS团队深度访谈来了

3.复旦大学，青年五四奖章！放弃“大厂”，他的选择是……

本文来自微信公众号“超越 J Curve”，作者：杨博宇，36氪经授权发布。