教授创业再次获得顶级VC支持。
投中嘉川CVSource显示,上海模思智能科技有限公司(简称“模思智能”)完成首轮融资。投资方为IDG资本、华为哈勃、元禾控股和智谱系机构星连资本。
模思智能由复旦大学知名教授邱锡鹏和他的学生创办。邱锡鹏是国内AI领域最知名的教授之一。他的专著《神经网络与深度学习》是国内“人工智能入门必读书”。2023年,他还带领团队发布了大模型MOSS,成为最早破圈的开源中文大语言模型。
模思智能主要从事语音大模型研发,近期发布了MOSS-Speech。按其官方说法,这标志着国产AI迈入了“真语音到语音交互”的新阶段。
01.谁是邱锡鹏?复旦教授,人工智能的布道者
2024年11月,模思智能(Moss Intelligence)在上海成立。这家年轻的公司立志于推动多模态交互与具身智能的产业化落地,希望通过更“懂人”的AI交互系统,重塑语音与视觉的结合方式。
模思智能的核心技术方向,是通过对用户提供的上下文与情境进行深度理解,构建自然、拟人的交互体验。公司当前的主营业务聚焦在语音大模型应用领域,产品主要服务于游戏解说、直播电商、新闻播报等语音内容密集型场景。
能让模思智能在天使轮阶段就吸引IDG资本、华为哈勃、元禾控股等顶级机构投资的,离不开公司创始人复旦大学计算机学院教授邱锡鹏。
邱锡鹏1997年考入复旦大学,先后获得理学学士和博士学位,并自2007年起留校任教。目前,他是复旦大学计算机学院教授、博士生导师,也是中国自然语言处理(NLP)领域的重要推动者。
有趣的是,邱锡鹏最初的本科专业并非计算机。在进入复旦大学之前,他几乎没有接触过编程。正是在复旦的通识课程中,他第一次接触到计算机科学,并因此深受吸引,最终转入该领域。
根据复旦大学官网信息,邱锡鹏主要研究方向包括自然语言处理与深度学习。他在ACL、EMNLP、AAAI、IJCAI 等国际顶级会议和期刊上发表论文50余篇,是国内外学界高度认可的学者。他主持开发的开源自然语言处理工具 FudanNLP 与 FastNLP,至今仍被广泛使用。
2015年邱锡鹏入选首届“中国科协青年人才托举工程”;2018年则荣获中国中文信息学会“钱伟长中文信息处理科学技术奖——汉王青年创新奖”。
话说2015年时,复旦大学首次开设“神经网络与深度学习”课程。由于当时没有合适的教材,邱锡鹏便决定亲自编写讲义。后来,这份讲义被扩写成专著《神经网络与深度学习》,成为国内AI教育领域的经典读物,被誉为“人工智能入门必读书”。邱锡鹏也由此成为中国人工智能领域布道者式的人物。
不过真正让邱锡鹏“出圈”的,是在2023年春节,他带领团队迅速推出了开源中文大语言模型MOSS。这款以科幻电影《流浪地球2》中量子超级计算机命名的模型,一经发布便登上微博热搜。
当时,OpenAI发布ChatGPT不久,国内大模型尚处于空白。邱锡鹏团队的成果是国内首个开放式中文对话大模型,不仅填补了中文语境下的技术空白,也推动了国内大模型的开源研究生态。
而这次创办的模思智能,其中文名“模思”,正是“MOSS”的音译。可见这家公司正是此前科研成果的转化项目。
02.最新发布 MOSS-Speech让机器人说话更自然
从工商信息看,邱锡鹏目前担任模思智能首席科学家,同时也是最大股东,持股约29%。
图片来源:投中嘉川CVSource
公司联合创始人兼CEO李世民,则是邱锡鹏的学生,复旦大学计算与智能创新学院2022级的硕博连读研究生。
这位与唐朝皇帝同名的年轻人,在学术界已崭露头角——据复旦大学官方公众号今年6月报道,李世民作为第一作者在CCF-A类国际会议上发表了3篇论文,并深度参与科技部“新一代人工智能2030”重点研发项目,在拟人化人机交互领域取得重要突破。
在创业之前,他主导推出了SpeechGPT——国内首个离散化端到端语音交互模型。该模型打破了传统语音系统“语音识别→对话模型→语音合成”的三级串联架构,实现了“语音输入→语音输出”的直接交互方式,被视为“语音版GPT”的早期雏形。
2024年,李世民还带领团队开发跨学科协作平台“学桥”。这款产品“学桥”整合了学校信息办和图书馆提供的10万余篇官方论文、数千名教师以及学生达人信息,打破学科交叉合作的信息壁垒。
在接受复旦大学公众号采访时,他说“将前沿技术真正转化成具有社会价值的产品,是我们的目标。”可见,李世民是邱锡鹏的得意门生,不论是在科研还是产品上,延续了导师对学术的探索与面向应用的技术导向。
目前,模思智能正围绕其核心技术打造对标谷歌Gemini Pro 的多模态大模型与智能体内容创作平台,涵盖高表现力的音视频理解与生成能力。最新进展显示,在邱锡鹏和李世民的带领下,模思智能近期发布了MOSS-Speech。
据官方介绍,这款模型标志着语音AI正式进入“语音到语音”的交互阶段。它与传统“语音识别—文本生成—语音合成”的级联方案不同,MOSS-Speech 实现了直接从语音理解到语音生成,无需文本中介。该模型可在生成回答的同时捕捉语调、情绪、笑声等非文字信号,使机器“说话”更自然、更具人性。
2023年,在接受复旦大学专访时,邱锡鹏说:“长远来看,我们期待把MOSS作为一个通向通用人工智能的基座,让它变成一个像科幻片角色的真实存在。我觉得通用人工智能由科幻步入现实,应该不会很远,也许5到10年。”
从科研到创业,邱锡鹏和他的学生们,正以商业的力量,把“未来”一点点拉近现实。
参考资料:
1.CIPS大模型与生成,真-语音到语音交互:MOSS-Speech 正式发布
2.复旦大学,研究成果将会开源!复旦MOSS团队深度访谈来了
3.复旦大学,青年五四奖章!放弃“大厂”,他的选择是……
本文来自微信公众号“超越 J Curve”,作者:杨博宇,36氪经授权发布。
