Z Potentials 10月25日 14:36
Tensormesh获450万美元种子轮融资,赋能企业大模型推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Tensormesh是一家专注于大模型推理优化的公司,近日宣布获得由Laude Ventures领投的450万美元种子轮融资。公司由芝加哥大学教授Junchen Jiang及其学生Yihua Cheng、Kuntai Du领导,旨在为企业提供大规模AI推理缓存产品化解决方案。Tensormesh将开源项目LMCache的技术与企业级服务相结合,帮助企业轻松部署大模型,降低成本并提升性能,目标是成为大模型推理领域的首选入口。

💡 Tensormesh致力于解决企业在大模型推理部署中面临的三大痛点:部署复杂性、集群管理难度以及高昂的成本压力。公司提供了一套“一键部署”的解决方案,使得企业能够便捷地在其私有云或内部集群中搭建和运行大模型服务,显著降低了部署门槛和运营成本。

🚀 公司核心技术源于其开源项目LMCache,并将学术界的底层优化研究与企业级应用相结合。Tensormesh不仅提供比公共API低十倍的运行成本,其自研核心技术还能将性能提升数倍甚至十倍以上,为企业带来显著的效率和成本优势。

🎯 Tensormesh的目标是成为大模型推理领域的“首选入口”,如同短视频领域的抖音、大数据领域的Databricks。通过技术领先的开源项目和易于使用的闭源产品,公司希望支撑下一代AI应用的大规模落地,并最终成为支撑AI应用的基础设施。

🤝 Tensormesh的创始团队背景深厚,由芝加哥大学教授Junchen Jiang及其优秀学生Kuntai Du、Yihua Cheng组成。团队从学术界跨越到创业界,深刻理解AI系统底层优化和工业界需求,并成功获得了由Laude Ventures领投的450万美元种子轮融资,显示了市场对其潜力的认可。

原创 Z Potentials 2025-10-24 16:16 广东

“就像提起短视频会想到抖音、说起大数据会想到Databricks那样,未来当人们谈到大模型推理,第一时间想起我们。”

图片来源:受访者提供

2025年10月,Tensormesh,这家致力于为企业提供缓存加速推理优化的公司,正式亮相并宣布获得由Laude Ventures领投的450万美元种子资金。

公司由芝加哥大学教授、LMCache的联合创始人Junchen Jiang, Yihua Cheng, Kuntai Du领导。LMCache是一个领先的开源键值缓存(KV Cache)项目,Tensormesh是第一个将大规模AI推理缓存产品化的商业平台,将受LMCache启发的技术与企业级的可用性、安全性和可管理性相结合。

以下是我们对Tensormesh创始团队(亦为LMCache的核心贡献者)的独家访谈,Enjoy~

很多学术背景的创业者早期都会被投资人这么提问:绝大多数教授创业会失败,怎么证明你能成?

这个质疑的背后,一方面是因为相比学术圈,创业是个九死一生的战场——数据显示,美国约90% 的初创企业最终会失败;另一方面,在投资人看来,学术型创始人通常缺乏对市场、产品的敏感度和应对竞争的实战经验,风险自然更高。

Junchen带领的Tensormesh团队正是一家出身学术圈的AI公司。面对类似质疑,Junchen并不否认教授创业的高失败率,但他有自己的理解。“绝大多数教授创业都失败,最大原因之一是学生毕业后没跟着一起创业”“教授单打独斗,但忽视了学生在创业初期的驱动作用。”在 Junchen看来,点子固然重要,但创业成功的关键不在于点子,而在于团队的凝聚力——那种为了共同目标全力以赴的归属感。在创业之前,Junchen在芝加哥大学担任副教授,研究方向聚焦AI系统与底层优化。他本科毕业于清华大学“姚班”,后赴卡内基梅隆大学读博,期间获得CMU CS最佳论文奖,毕业后曾在微软研究院短暂工作。

Tensormesh的创业构思发生在2024年初,彼时,带着大模型底层系统相关的论文四处演讲时,Junchen意识到,在大模型领域,学术界和工业界之间存在着偌大的鸿沟:“AI算法层面工业界跑得更快,系统层面学术界遥遥领先,但双方常常听不懂彼此在说什么。”这种“对话失效”的割裂感让他决定跳出学术象牙塔,投身工业界,把复杂的系统研究做成能被看见、被用起来的产品。“与其说服别人技术有多好,不如直接做给他们看。”

一个普通的冬日午后,在学校楼下的一张桌子旁,他把这个念头第一次讲给学生Yihua听。之后不久,Junchen又找了另一名学生Kuntai,创始团队三人一拍即合、正式“成团”。围绕“打造连接推理引擎与存储服务的桥梁”这个初步设想,LMCache(Tensormesh的起源)雏形初现。2024年下半年,组里的同学们都踊跃把自己的研究项目实现在LMCache的平台上

Yihua的话来说,Tensormesh是“帮助企业一键部署大模型服务的一套解决方案”。就像给企业递上一把“智能钥匙”,打开AI大模型的门,让它们轻松用上ChatGPT、DeepSeek那样的技术,却不用担心复杂的技术门槛或高昂的成本。部署后,运行成本只有公共API的十分之一,此外,Tensormesh融入自研核心技术,性能比业界主流方案高出甚至十倍以上。

在团队组建后不久,公司就迎来了意料之外的加速度。Tensormesh的第一次融资过程有点非常规——没有写BP,没有路演,仅靠一次熟人引荐。几次交流后,这位投资人带着合伙人飞到芝加哥,一个月后,甚至还没等团队正式启动融资流程,就收到了投资意向书。2025年10月,Tensormesh团队宣布完成种子轮融资,由Laude VC领投,融资金额为450万美元,资金将主要用于产品打磨和团队扩充。

技术层面,Tensormesh力求“打造性能最强的开源引擎”以赢得用户认可;战略上,他们认为“开源不是终点,而是入口”,真正的商业价值在于构建闭源版本。

Tensormesh把目标总结为:打造一套真正人人都在用的系统。“就像提起短视频会想到抖音、说起大数据会想到Databricks那样,未来当人们谈到大模型推理,第一时间想起我们的产品。”他们希望成为支撑下一代AI应用大规模落地的底层操作系统。

当下,Tensormesh正在真实的创业战场中,探索一套不同于学术的认知路径和产品实践。一个最显著的变化是,他们已经不再以“技术是否先进”作为判断标准,而是转向思考:“这项技术对谁有用?如何用?何时用?”这不仅是从研究者到创业者的角色转变,更是整套认知体系的重塑。

此次,Z Potentials专访了Tensormesh的三位联合创始人Junchen、Yihua和Kuntai,他们与我们分享了多个关键人生节点,和对于大模型推理、开源技术以及创业的深度见解。

LLM(大语言模型)的应用基础设施,会像大数据时代的ApacheSpark,像互联网刚出现时的浏览器,或者像智能手机时代的Android/iOS一样,LLM也一定会有这样一套基础软件系统来支撑它的广泛落地。

传统公司越是保守,越需要一套内部系统,他们不可能把命脉交给外部公司。这是个非常大的产业,并且会越来越大。我们做的这套东西,就是现在backend engineer和application developer最需要的之一。

我们做的系统,抽象、机器化的部分是算法,具象、有温度的是每个人独特的数据,这些数据是存储下来的。两者之间的桥梁,就是我们系统里的LMCache,核心是让在算法和人之间建立一道桥梁。

开源与闭源关系的理解。我们觉得不是非此即彼,重点是如何让更多人用上我们最好的技术。我们的目标是让LMCache成为技术上最棒的开源项目,然后再做一套生态系统,让我们公司成为最容易用起来LMCache,也最容易基于LMCache理解用户和大语言模型需求的平台。

开源不是最终形式,开源也不能直接盈利。我们的目标是让LMCache成为技术上最棒的开源项目,然后再做一套闭源的生态系统,让公司成为用起LMCache最方便的平台。

很多问题是真撞了南墙才知道的,比如开源代码写太好,别人就想抄;抄不了就会套个壳来卖。这在学术圈是闻所未闻的事,但在开源界是常规操作。很多困难也因此而起。说实话我们是初生牛犊不怕虎,现在的困难确实很多。但我们能走到今天,一方面是朋友们提供了很多帮助;另一方面是这些学生真的做出了难的的项目。

绝大多数教授创业都失败,说是教授太理想主义。我觉得其实失败的最大原因是学生毕业后没跟着一起创业。教授出来当光杆司令失败太多了,只有这些一直做项目的学生才对教授有足够的了解和信心,才是最大的动力,他们自己也有ownership,会真的有投入。

01 一次关键的方向转型,全员All in AI,构建推理引擎与存储之间的“桥梁”

ZP:请Tensormesh三位创始团队三位嘉宾介绍一下自己

Junchen:大家好,我是Junchen,芝加哥大学计算机系的教授,也是Tensormesh的联合创始人之一,另外两位创始人是我的学生Kuntai和Yihua。

我本科毕业于清华大学姚班,后来在卡内基梅隆大学读博,研究的是网络视频传输系统,相关算法现在已经广泛应用于短视频和流媒体。博士期间拿过一次最佳论文奖,毕业后在微软研究院工作了一年,2018年加入芝加哥大学任教。

我的研究方向其实一直围绕“AI的底层系统”展开,过去做过视频传输、视频分析系统,也是在系统方向里比较早做这块的。Kuntai就是在当时的项目中做出了很多开创性工作。后来我们团队逐渐把重心转向大语言模型系统的研究,在整个系统领域里也算比较早的一批。

老实说,刚开始我对大语言模型(LLM)没有那么兴奋。我判断一个研究方向是不是值得投入,关键在于:它是否能在未来三到五年真正服务于大多数人。在这点上,早期很多AI应用其实都“雷声大雨点小”,比如计算机视觉,讨论很多,但规模化落地的程度远不如流媒体、云计算或者移动互联网。

直到我深入研究了一些关于GPT的应用场景和商业预测后,才意识到这个技术的爆发速度超出预期。2023年初,很多人还没意识到LLM会这么快成为主流,但我当时判断它会像浏览器之于互联网、Android之于智能手机,成为新一代基础设施。这种变化必然会带来一整套全新的系统需求。

在一次组内讨论时,几个学生,包括Kuntai,Yihua和Yuhan Liu,都跟我提到,我们可能可以做点什么。不只是做研究,而是从底层系统出发,构建真正面向LLM的基础设施——支撑下一代AI应用大规模落地的那层“操作系统”。

ZP:这个决定具体发生在什么时间?

Junchen:2023年2月初,当时正值论文投稿后的空档期。我在团队会议上提出了我们要调整方向:从训练系统转向推理系统的研究。核心依据就是:尽管当时AI领域的研究重心多在训练系统,但我坚信,若AI技术要实现大规模应用,99%以上的计算负载将发生在推理阶段,而非训练阶段。因此,专注于LLM推理系统具有更根本的意义。

彼时LLM领域热度正盛,团队也很有研究热情——然而,此举也引来了一些学界同行的疑问,有人直接质疑:“为何选择这个方向?是不是追热度?”当时其他团队往往是学生推动导师跟进,或由学生独立探索;而我们的转型则是几乎所有成员都明确、主动地将研究重心聚焦于语言模型项目。

ZP:有没有哪个具体场景或瞬间,让你意识到这项技术在未来3~5年内能实现大规模可用?

Junchen:坦白说,当ChatGPT横空出世时,我的第一反应并非像工业界那样感到“震惊”。虽然其展现的能力确实令人惊叹,许多人视其为划时代突破,但我初期的感受更多是“技术发展的必然”。

一个日常场景彻底改变了我的认知。当时我正在使用Microsoft Word,一个再普通不过的编辑建议弹窗突然出现。那一刻我意识到:“这背后很可能就是语言模型在驱动。”无数类似的、看似微小的应用场景瞬间涌入脑海。这让我深刻理解到:大模型的应用天花板极高,当前我们所触及的仅仅是冰山一角。如今尚处于应用场景的初步探索阶段(“一倍”),市场已为之狂热;当未来其应用场景呈指数级增长(“百倍”)时,它将如同水电般融入日常生活,变得不可或缺且习以为常。

因此,我完全认同将ChatGPT称为AI领域的“iPhone时刻”。技术发展史上不乏对“前景”的畅想,但有些突破,你能凭借直觉笃定:这就是真正变革的开端。

ZP:请Kuntai来介绍下自己的经历?

Kuntai:大家好,我是Kuntai。高中时参加信息学竞赛,2015年进入北京大学,2019年赴芝加哥大学攻读博士,目前即将毕业。

我从小对计算机充满热情,最初只是因为想写游戏,觉得很酷。小学时甚至在纸上写for循环,初中在东北师大附中,感谢王晓光老师在计算机课上教授编程,从那时起我便走上了算法竞赛的道路。也因此顺利进入北大,因竞赛背景课程内容偏前沿,接触到了语言模型、计算机视觉等。那时虽对研究充满兴趣,但错过了早期参与NLP研究的机会。直到看到刘家瑛老师的招生介绍,被她的亲切和组里轻松有趣的氛围打动,进入她的组开始做视觉方向研究。

当时正值GAN研究爆火,我也投入其中训练相关模型。这段经历让我意识到,自己的研究兴趣更倾向于系统软件中那种由确定性逻辑驱动的模式。于是开始思考如何向更偏系统和底层的研究方向探索。大三时转入许辰人老师组,做可见光通信相关的软硬件研究。这段经历非常宝贵,硬件研究能够建立新的场景解决新的问题,实验室的老师和同学们能力极强人也很好,给了我许多帮助。也正是在亲手与硬件打交道的过程中,我更加明确了自己的特长和热情更集中于软件架构,希望能在纯软件的领域里构建更复杂的系统。

博士申请时拿到两个offer,我选择了Junchen老师,开始做系统视角下的视频分析,目标是提高运行效率。这个方向做了四年,正好赶上大模型崛起。我面临选择:是稳妥毕业,还是转向一个未知但充满潜力的新方向?

我始终有成为老师的念头,也热爱写作、唱歌,渴望表达。因此当我接触到生成式AI时,内心产生了强烈的共鸣。从简单使用者逐渐转变为思考底层机制的研究者。我在Berkeley实习期间参与推理引擎相关开源项目vLLM,开始切身体会到工业界对于大语言模型的需求,也看到很多开发者在拓展vLLM过程中所面临的挣扎。

那时我开始思考,是否能做一个“连接器”,让用户更便捷地接入底层推理引擎?这个想法逐渐成为我的研究核心,也成为创业方向的雏形——打造连接推理引擎与存储服务的桥梁。

去年暑假,我和Yihua“一拍即合”,正式决定创业。理由很简单:一是现实层面,创业的期望收益更高;二是大模型领域的推进主要依靠工业界,比如国内的千问、DeepSeek,背后都是大量资源和漫长试错积累;三是我希望研究不仅是学术上的兴趣,也成为日常工作的一部分,能做真正有影响力的东西。

非常感谢Junchen老师,他不仅尊重我选择自由,也鼓励我们大胆实践。于是我们决定一起出发,开启这段探索与挑战并存的创业旅程。

ZP:Kuntai“你曾写过‘科学能告诉我们什么是合逻辑的,不能告诉我们什么是值得追求的’。用一句话总结,什么是值得你追求的?”

Kuntai:我想起刘擎老师在《奇葩说》里说过的一些话。我想做的事是:在抽象的部分和具体的人之间,建立一道桥梁。这一直是我前进的方向。

我试着把它具象化成不同的组成部分。比如我们做的系统里,抽象、机器化的部分是算法,具象、有温度的是每个人独特的数据,而这些数据是存储下来的。两者之间的桥梁,就是我们系统里的LMCache,核心是让在算法和人之间建立一道桥梁。

ZP:请Yihua来介绍下自己吧!

Yihua:大家好,我是Yihua。我和Kuntai的经历有很多相似之处,可能因为我们是同一个时代成长起来的。我本科2016年进入北大,2020年毕业后加入Junchen老师团队,今年刚刚博士毕业,目前参与这个创业项目。

我从小就喜欢玩游戏,也很早接触电脑。三岁时父亲就开始教我用电脑,初中时他给我一本旧的Pascal编程书,我照着代码在电脑上敲,虽然经常因为漏掉分号导致程序出错,但依然觉得编程很有趣。之后学校开了编程班,我报名参加,单纯因为喜欢,不是为了竞赛。

初三那年,我姐姐带回一本谭浩强的《C语言教程》,我着迷了整个假期都在自学。高中时曾投入精力学化学竞赛,并因此获得保送北大的资格。没有高考压力后,我又重新拾起编程,学习了Java等语言,为后续发展打下基础。

本科是我成长最快的一段时间。入学时我用的是一台配置较低的办公笔记本,同学们用的是跑得飞快的游戏本。那时非常流行《守望先锋》,我只能16帧运行游戏,而别人能跑60帧。那一刻我开始思考:要有什么办法能让这些程序跑得又快又好就好了,怎么才能加速这些程序?

于是我开始探索多线程、并行计算等方法,后来加入了学校的超算队,参加国际比赛。在那里我第一次系统接触到GPU计算,也学到很多底层优化技术。本科期间我在许辰人老师的组里做研究,毕业设计是一个结合网络与GPU的系统项目,涉及从软件到底层硬件之间的调优。

之后我有幸来到Junchen老师组里读博。刚开始他问我:“你未来想做什么?”我回答:“我想做一个能被非常非常多人用到的东西。”这个愿望成了我读博期间的“北极星”,也指导我选择研究方向。我并不满足于只做“漂亮”的研究,更希望它们能落地、有影响力。

博士期间,我参与了视频编码器相关的研究。视频编码是所有人都会用到的技术,如果我能提升它的效率,它就可能影响很多人。我们尝试用神经网络优化编码器,从而开启了我对AI系统的深入了解。随着ChatGPT的出现,大模型成为热门方向。我开始将此前在系统层面的积累用在AI模型的落地上,从算法实现、系统部署到工程优化积累了大量经验。这些经验也为我日后参与创业打下了基础。

总体来看,本科之前我在不断探索,PhD期间则专注打磨。如今,大模型带来了全新机遇,也让我和志同道合的伙伴走到了一起,我非常期待我们接下来的创业之路。

ZP:Junchen可以稍微展开分享一下你决定组建这个团队、决定创业背后的故事和心路历程?

Junchen:我们一开始是不做大语言模型系统的,但很快觉得这个方向特别有前景。我其实一直在找这样的方向,因为只有少数人看出来的时候,才能做一些disruptive的东西,而且这个东西可能被广泛接纳。

但是一开始我们只是想做学术研究,我在电脑上列了十几篇可以写的paper,觉得有很多东西可以做。当时有几个同学,包括一个叫刘峪含的同学,她是最初做这个方向的之一,写了几篇paper后,我也以学术的方式到处讲。

讲的时候发现有非常大的问题:做AI的人里,算法层面工业界走得比学术圈快很多但都没有落地,因为没有相应的系统,而系统层面反而是学术界超前太多,以至于大家互相听不懂彼此在说什么。关键问题是工业界没有一套灵活的KV cache相关的系统。

这个时候,与其去说服别人这个方向为什么好,不如直接去工业界。你在学术圈里唤不醒你的同僚,但工业界他们还在解决上一代的问题。那个时候我觉得,与其写很多paper最后被淹没,还不如走别的路。

2024年初,我回国待了二十几天。刚回到美国,周二落地,周三就约Yihua吃饭。我拉他去楼下小卖部买了盒饭,我们坐在楼里一张桌子旁,我跟他说:‘我跟你说个事,先别跟别人讲——我们可能要做个 startup,因为我觉得这件事在学术上走不通了。’

第一个找Yihua,是因为他当时刚好一个项目做完,正在考虑接下来的方向,也准备毕业了。我对他说:“先把系统搭出来。”Kuntai那时候忙着赶各种paper,还要去Berkeley。我当时想,先问问Yihua有没有兴趣。毕竟他们俩是我组里最senior的学生——如果Yihua愿意加入,大家可能都会跟着一块做,这是我当时的判断。所以我们先以开源项目的方式开始做,看看能不能走得通。

到了2024年9月,tenure(终身教职)还没下来,我就跟系里说:我准备走了,接下来两年可能不在学校,我当时的判断是——这事不能再拖,必须马上启动。其实也没什么特别的。我的初衷一直是想用学术的方法把这事做出来,但现实逼得我换了条路径,既然学术上走不通,那就创业。

我特别感谢Yihua和Kuntai。说实话,大多数教授创业都失败了,理由往往是教授太理想主义。但我觉得真正的原因,其实是学生毕业后没一起出来创业。教授一个人空降创业,很容易变成光杆司令。反而是这些在组里一直做项目的学生,才是最大的驱动力。他们毕业后能一起创业,有参与感,有 ownership,也愿意投入。

不仅是他们俩,现在我们整个组暑假几乎都在跟着做实习生,大家都在参与这个开源项目。这在学术圈里,其实是挺难得的。

02 解决大模型部署的“三大难题”:隐私、集群管理与成本压力,力争成为“首选入口”

图片来源:受访者提供

ZP请介绍一下你们的产品是做什么的,面向什么样的用户?

Yihua:一句话概括,就是帮助企业一键部署大模型服务的一套解决方案。

现在大模型很火,比如ChatGPT、DeepSeek、Claude 等,大家都觉得这些东西非常有用,也都想用。成千上万的企业正在尝试把大模型加入到他们的业务中、工作流中,或内部使用的场景中。但他们有若干痛点:比如数据问题,客户数据必须保证隐私安全;或者是公司内部敏感数据不能泄露。所以他们寻求私有化的大模型推理解决方案,比如在公司集群里部署,或在租赁的私有云上部署。但大模型刚出来,本身难以部署、难以运行,要做到这个有三个主要痛点:

第一,把大模型在大规模集群上跑起来非常难。现在很多开源技术都是在单机上跑模型,但如果有几十台甚至几百台机器,就涉及负载均衡、高可用性、部署安装等问题。

第二,大模型集群管理复杂。它不像传统web app,涉及到GPU使用、模型存取、模型性能监控等,大大提高了运维难度。普通工程师很难运维大模型集群。

第三,大模型成本高。推理需要大量GPU,比传统模型成本高很多。尤其大语言模型比传统AI计算需求更大,使用门槛高。

我们的产品正是为了解决这些痛点,提供的是一键部署、高性能、高可用的in-house大模型解决方案

比如你有私有云或公司内部集群,使用我们的产品,可以实现一键部署模型服务,无需复杂配置,不受环境限制。部署完成后,相比使用ChatGPT或Claude的API,我们的运行成本更低——大约只有十分之一,因为public API往往存在显著的溢价,其收费远高于实际的GPU运算成本。

我们的方案在保障数据隐私的同时,大幅降低成本。更重要的是,在接入我们团队自主研发的核心技术后,性能相比当前工业界主流方案提升了数倍,甚至十倍以上

ZP:展开讲一讲大语言模型推理这个行业现状。

Junchen: 推理行业现在还是比较新兴。过去大家普遍认为推理只是训练后的附带环节,训练才是核心。但随着模型大规模落地,推理成本已经反超训练,成为更大的挑战。一份半年前的报告就指出,推理支出已超过训练,主要因为使用量快速上升。

训练当然仍然重要,大家都需要更大更强的模型。但推理是一个更普遍、更复杂的问题,它的需求会随着模型使用的普及持续增长,而且上限远高于训练。

推理系统大致分为两类:一类服务于闭源模型,基本只由闭源公司自己运行;另一类则围绕开源模型展开,这一块才真正让整个行业动起来。因为只有开源模型,才能让更多公司和开发者参与其中,建立自己的推理系统。

在开源模型里,又可以分为两种:一类是通用模型,比如LLAMA4这类开放权重的通用基础模型,适合做各种应用,但不具备个性化能力;另一类是经过微调或后训练的定制化模型,基于用户数据做个性化优化,需求越来越多。

对于这些定制模型的推理,主要有两种做法:一是使用Fireworks、Together等托管服务,提供GPU和推理软件打包的一站式解决方案;二是公司内部的AI Infra团队基于开源组件自建系统,把模型部署在自己的机器上。后者非常普遍,但也非常辛苦。我们见过很多工程师在重复造轮子,耗时耗力,但因为涉及自有模型和私有流量,也别无选择。我们想解决的,就是这一类用户的痛点。我们提供的是一个即插即用的本地部署系统,用户可以在自己的机器、自己的模型上,快速完成搭建,性能更强、效率更高、支持的模型也更多。既保障数据安全,又极大节省工程资源。

之所以能做到这些,离不开当前成熟的开源生态,以及我们团队多年积累的研究成果。我们相信,推理是一个真正的大产业,不只是AI公司需要,银行、保险、金融等传统行业同样刚需。今天每个公司都有AI战略,CEO问CIO的第一句话是:“我们的AI战略是什么?”而五年前是:“我们的云战略是什么?”

传统公司越是保守,越需要一套内部系统,他们不可能把命脉交给外部公司。所以这是个非常大的产业,并且会越来越大。这正是我们正在做的,也是当前backend工程师和应用开发者最急需的基础设施。

ZP:相较于行业里传统的缓存方案,你们的创新点在哪里?

Kuntai:大语言模型的服务正从同质化走向定制化。过去大家用的是同一个模型,而现在,每个用户都希望模型能理解自己的数据、语境和需求。

实现定制化,最经济的方式是推理阶段的定制。相比昂贵的训练,推理式定制成本更低、上线更快。它的核心在于:将模型计算中生成的定制化内容缓存起来,也就是所谓的KV Cache,即模型推理过程中生成的key和value向量缓存,用于后续加速。

我们给项目的定位是:专注于推理计算和存储之间的桥梁。市面上已有不少成熟的存储服务,比如Mooncake、Redis,也有越来越成熟的推理引擎,比如各大云厂商的存算一体化方案。但过去缺乏一个专注于“连接存储与推理引擎”的中间层产品,这是我们项目的切入点。

目前,我们已经取得初步成果。例如在vLLM项目中,Mooncake就通过我们引擎实现了存储与推理的对接。我们的系统也不只是工程堆砌,而是从算法需求出发,设计更适配的系统架构。许多系统工程师只做infra,不碰算法,而我们则希望为算法提供真正能落地的执行平台。本质上,AI系统的未来是由算法驱动的。这也决定了机器学习系统与传统系统的不同——它要求系统本身具备足够的弹性和适配力,去支撑快速演化的模型结构与推理方式。

我们最终的目标,是让机器学习工程师的潜力被充分释放。只有这样,Tensormesh才能成为真正有用、被广泛采用的底层系统组件。

ZP:Tensormesh这个产品要做好,在技术上最主要的难点是什么?

Yihua:主要有两点挑战。第一,Tensormesh作为面向企业的in-house部署解决方案,必须适配各种不同的环境和技术栈。企业使用的硬件差异很大,有的用最新的Nvidia GPU,有的用老旧设备;管理方式也各不相同,有的采用Kubernetes集群,有的用其他方案。如何做到在多样化的软硬件环境中实现统一部署,是我们面临的重要难题。

我们正在探索基于容器化技术的方案,借助成熟的容器技术,实现“一套容器跑遍各环境”。这样,无论客户采用何种技术栈,都能快速、简单地部署我们的系统。

第二个难点是如何从算法落地到产品。我们来自学术圈,有很多算法优化的积累,比如让大模型运行得更快、推理结果更好。这些研究通常只需要在paper中体现,并不需要考虑大规模部署或跟已有开源方案的兼容。真正做成产品时,我们必须在现有代码基础上落地新算法,同时确保用户能获得实际的体验提升,这在技术上同样具有挑战。

ZP:推理这个细分行业竞争情况怎么样?我们的主要优势是什么?

Kuntai:目前行业竞争主要体现在已有很多成熟的第三方解决方案,比如API。国内有很多公司在做API,还有很多推理引擎和存储的解决方案。

主流推理引擎如vLLM和SGLang都较为成熟,存储方案也丰富。但市场上缺乏一个非第三方、支持私有部署,且能整合推理引擎、存储、调度和路由等全链路服务的整体解决方案。我们的定位正是填补这一空白,具备联合开发能力,将各环节无缝结合。

另一方面,我们也在结合机器学习的优化,争取把整个系统做得更快、更省资源。

ZP:在开源方面有哪些规划?作为一家商业公司,您打算如何平衡开源与商业利益?

Junchen:这是一个复杂且长期存在的问题。我们选择开源,主要是因为我们的系统需要适配多种环境,如果不开源,所有问题都得由我们先解决,再交给客户。开源是一个让用户先跑起来、先用起来的好方式。

从长远来看,开源并非最终形态,因为开源本身难以盈利。我们的目标是打造性能和技术指标都优于其他开源项目的版本。只要我们的开源领先,接下来挑战就是开源版本基础上添加商业价值的闭源产品。理想状态是,闭源版本最优秀,开源版本也领先市场,这样用户既能免费使用高质量开源,也愿意为更好体验的闭源付费。我们有信心实现这一点,因为我们了解竞争对手的开源水平,同时还有许多技术尚未释放。

开源与闭源之间如何平衡,我觉得这其实是个伪命题。最重要的是让大家能用起来。第一,要做到性能最快、体验最佳的分布式推理系统;第二,是让更多用户便捷使用。开源是实现广泛使用的有效途径,但用户也可能偏好部署简便、体验更好的闭源系统。

换句话说,闭源系统可视为最新技术的便捷入口,帮助用户快速接入和使用我们的成果。这也是我们对开源与闭源关系的理解,我们觉得不是非此即彼,重点是如何让更多人用上最先进的技术。

ZP:在你们的开源项目推进过程中,有没有遇到过一些特别有趣或印象深刻的用户案例?

Yihua:让我印象特别深的一件事发生在公司刚起步、我们还在摸索产品方向的时候。当时我们跟一些潜在客户聊天,其中有一位客户分享说,他们买了NVIDIA的硬件,NVIDIA推荐他们再购买配套软件,每块GPU一年花了几千美元。买完后,对方告诉他们:这套软件还不支持你们买的新硬件,要再等。

这件事让我们意识到,很多公司其实根本不知道怎么把大模型跑起来,基础设施的门槛远比想象中高。痛点非常明确,但市面上并没有一个真正成熟好用的解决方案。NVIDIA硬件的评价一直很好,但软件层面很多人并不满意,最后用户还是不得不回头找NVIDIA买软件,这反过来也说明这个方向是有市场缺口的。这是我们早期非常重要的认知转折点。

还有一个有意思的案例是我们与Bloomberg的合作。他们从一开始就没有使用我们的开源方案,甚至也不是闭源版本的用户。他们完全不在意我们的产品是不是开源,关键在于:你能不能交付一个真正好用、能落地的系统。这让我们意识到,虽然有些公司对开源有强需求,但更多的企业关注的是实际交付能力和使用体验。从Bloomberg这样的客户身上,我们看到的是另一个非常典型、现实的企业需求侧画像。

Junchen:Bloomberg找上门的时候我们也很意外。他们直接拿了我们提供的Docker镜像部署,遇到问题就在Slack上和我们沟通,边跑边调,结果没多久就将系统接入到了线上产品,而且稳定运行了好几个月。

ZP:未来几年我们公司和产品的主要计划是什么?以及最希望达到的目标是什么?

Yihua:从年度目标来看,我们最希望把产品打造成大模型部署的首选入口。就像提到短视频,大家会想到抖音或哔哩哔哩;说到大数据,第一反应是Databricks。

如果我们能做到以后一提到大模型推理,第一个想到的是我们做的产品,那就是我们理想的目标。

ZP:除了把技术和产品做到最好之外,还有什么你们觉得非常重要的事情?

Kuntai:把产品本身打磨好,确实是基础,但它解决的只是“能创造多少价值”的问题。要把这部分价值真正转化为营收,最关键的还是市场和营销。我们希望在这方面做得更好,把产品价值有效带入我们的商业体系中。

此外,除了专注当下的产品,我们也需要具备前瞻性思维,看清几个月后的行业趋势,并提前进行战略布局。比如LMCache就是一个典型案例。它起步于一年前,当时还没有多少关注度,但正是因为那时的提前投入,今天它才能成为我们的支柱性产品。

第三点,我们希望有更好的团队建设。最终一切都是人的问题。有对的人、对的小伙伴、对的氛围,这个非常重要。

03 从学术到商业的认知转变,一次“非常规”融资之路

ZP:恭喜你们刚完成新一轮融资!能否简要介绍一下这轮融资的基本情况?

Junchen:其实我们没有经历一个传统意义上的融资流程——你可能会有点惊讶,我们连项目计划书都没写过。这确实是一种非常规操作,也不一定值得推荐。我们没有经历那种从写BP到路演的完整过程。

我们一开始非常幸运,因为和张晖老师和Ion Stoica一直有联系。2024年夏天,我只是跟他们提了下“想试试开公司”,并没有说要融资。他们就主动介绍了一位很有经验、在业内挺有影响力的投资人给我认识。

我一开始只是跟这个投资人聊了一次,我想认识一下也好,没见过投资人,正好聊聊我们在做的事情。我以为聊完就结束了,没想到对方特别感兴趣,之后两三周就会主动联系一次。

后来投资人直接带着他合伙人飞到芝加哥见我们的团队。我本以为这只是一次正常的catchup。他说上午九点见我们,我跟Yihua和Kuntai说,我们找家咖啡店随便聊聊。去学校的路上,我给张晖老师打了个电话,说:“他人都飞过来了,是想干嘛呀?”张老师问我怎么接待,我说就在附近找地方喝咖啡。他提醒我:“你们得认真点,说点干货。”

我们原本打算今年年初再启动融资,但这位投资人在去年12月就发来了投资意向。整个过程发生得非常快,我们也没来得及再接触其他人。出于对他的信任和认可,我们最终接受了这轮融资。

ZP:从去年12月到现在创业差不多半年,感觉如何?和做学术相比,不一样的地方在哪儿?

Kuntai:首先和做学术最大的区别是,做学术的时候你在乎的是这个东西是不是真的有用,但在创业的时候你更在乎的是这个东西对谁有用。你需要具体到某个客户,具体到某个需求,不能脱离具体的客户去谈空泛的技术。总之就是要拥抱整一套商业的玩法,积极地和它做结合,不只是考虑学术上有没有用,更要考虑在商业上能不能转化。

至于创业的感受,就是事情真多。每一件要做的事情都不是因为只有这些事可以做,而是这些事相对比较重要。你做的每一件事都是你自己的选择。同时你在公司也要工作,回家也要继续工作,你得先给自己画饼,才能给别人画饼。

ZP:你们对十年后的公司有什么期待?

Junchen:我们希望公司未来成为AI的入口。明年,AI应用可能会达到数百万级别,实际上今年已经有大量应用在使用AI推理。我们的目标是,当用户想到推理时,首先联想到的就是我们的产品。

大语言模型(LLM)不会是永恒的存在,AI会持续发展。十年后,AI的形态肯定不同,不会再依赖单一模型或单一API来解决问题。作为系统和网络出身,我认为核心在于流量的产生、接收、数据的生成与消费。

过去二三十年互联网时代,人是内容的主要生产者和消费者,中间的系统只是中介,所有结果最终都是给人看的。但未来十年,这些角色很可能被agent替代——agent这个词十年后可能不流行了,但AI会是背后的存在AI既生成内容,也消费内容,人可能只在其中扮演一小部分的角色。

所以从系统形态上来看,未来很可能是从“以人为本”转向“人类辅助”,虽然哲学上可能还是以人为本,但系统层面不再以人类为中心。

ZP:十年后你对自己的期待是什么。

Junchen:十年后我还在这儿当CEO吗,我不确定。公司和学术是两种完全不同的环境。做教授可以很长时间,但没人能当CEO很多年。因为对公司的要求和期待是不一样的。

Yihua:我刚才想了想,比如十几年前,2010年,那时候还是3G,很难想象十年后会有5G,互联网和各种App也会这么大发展。所以,如果往后看十年,正如Junchen说的,可能真的就是human in the loop的human被拿走,变成了human out of the loop。我觉得十年之后,这个世界上很多东西都会变成完全自动化,被人工智能接管。

我觉得十年后,很多事情都会实现高度自动化,被人工智能接管。在这样的未来,如果我们的公司能在这个领域扮演关键角色,取得成功,那将是非常美好的愿景。

至于我自己,如果十年后AI真的完成了绝大多数工作,比如编程不再需要像现在这样学习,我希望自己还能保留一些AI无法替代的能力。

Kuntai:我希望我们做的东西不仅有技术含量,更带有人文的温度。它不应该只是追求最高效的技术,而是更关注一些非技术的价值——比如能不能给用户带来新的知识,帮助他们更好地探索世界,而不是仅仅在乎产品跑得多快。

当然,这一切都必须建立在技术过硬的基础上。如果没有做好效率,谈这些情怀其实都只是空谈。

至于十年后的自己,我希望能成为一个快乐的老师。

ZP:你想教什么?

Kuntai:其实我很想教“计算的历史”(History of computation),但这又不是我的研究方向,所以我觉得得好好下功夫学一学才行。

ZP:工作以外,兴趣爱好是什么。

Kuntai:我很喜欢下棋。记得当时在微软研究院实习,大家都知道我会下棋,那地方太空旷了,大家一眼就能看到我屏幕上的棋局,摸鱼都没法藏。

Junchen:我喜欢踢球,不过最近忙得没时间,很久没踢了。我特别羡慕张晖老师,他以前几乎每周都踢球,年纪比我大,踢球频率估计比我还高。

Yihua:我从小玩游戏,到现在还在玩,哈哈。平时还喜欢唱歌。

ZP:你们三位是公司的co-founder,有没有想感谢的合作者?

Junchen:要感谢的人太多了,最重要的是能有一群人一起做这件事。特别是我们组里的学生,不仅是Yihua和Kuntai,他们非常强,贡献也很大,但其实几乎所有参与这个项目的学生都在努力付出,不论是学术还是工程方面。

起初,我们的项目其实是作为vLLM的一个插件进行的,他们也给了我们很多帮助。还有,Ion Stoica在创业过程中给予了大量鼓励和指导。还有张晖老师,我以前在CMU的导师,他本人和很多学生都在创业,他的影响力很大,也给了我们很多宝贵建议。

创业后我才意识到,在学术圈里其实是一个相对封闭的圈子,很多关系联系不多。但创业之后你会发现,有很多人愿意帮忙。想对还没创业的教授朋友说:真的可以试试,不然这些关系资源就被浪费了。

Kuntai:先,非常感谢我们组里的同学,还有张晖老师和Ion Stoica,他们给予了我们极大的帮助。其次,我要感谢我的父母,虽然起初有些顾虑,但最终支持我创业,这对我来说是一个关键的转折。

我还想感谢一些“不期而遇”的伙伴。在决定创业之前,我和Anyscale的前CEO聊过一次,听到了他的人生建议。创业后,我与怀政等许多人深入交流,收获良多。还有vLLM项目的伙伴们,技术和研究上的互动让我受益匪浅。与工业界合作伙伴的对话,也在某些瞬间点燃了思想的火花,实实在在地改变了我的人生轨迹。

请注意,本次访谈内容已经过编辑整理并已获得Junchen Jiang、Yihua Cheng、Kuntai Du的认可,仅代表受访者个人观点。我们也欢迎读者通过留言互动,分享您对本访谈的看法。欲了解更多信息,敬请访问Tensormesh官方网站https://tensormesh.ai/。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群,与我们共同分享、学习、成长。

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Tensormesh 大模型推理 AI基础设施 LLM Inference AI Optimization Seed Funding LMCache 开源 企业级AI
相关文章