原创 Z Potentials 2025-10-24 16:16 广东

“就像提起短视频会想到抖音、说起大数据会想到Databricks那样，未来当人们谈到大模型推理，第一时间想起我们。”

图片来源：受访者提供

2025年10月，Tensormesh，这家致力于为企业提供缓存加速推理优化的公司，正式亮相并宣布获得由Laude Ventures领投的450万美元种子资金。

公司由芝加哥大学教授、LMCache的联合创始人Junchen Jiang, Yihua Cheng, Kuntai Du领导。LMCache是一个领先的开源键值缓存(KV Cache)项目，Tensormesh是第一个将大规模AI推理缓存产品化的商业平台，将受LMCache启发的技术与企业级的可用性、安全性和可管理性相结合。

以下是我们对Tensormesh创始团队（亦为LMCache的核心贡献者）的独家访谈，Enjoy~

很多学术背景的创业者早期都会被投资人这么提问：绝大多数教授创业会失败，怎么证明你能成？

这个质疑的背后，一方面是因为相比学术圈，创业是个九死一生的战场——数据显示，美国约90% 的初创企业最终会失败；另一方面，在投资人看来，学术型创始人通常缺乏对市场、产品的敏感度和应对竞争的实战经验，风险自然更高。

Junchen带领的Tensormesh团队正是一家出身学术圈的AI公司。面对类似质疑，Junchen并不否认教授创业的高失败率，但他有自己的理解。“绝大多数教授创业都失败，最大原因之一是学生毕业后没跟着一起创业”“教授单打独斗，但忽视了学生在创业初期的驱动作用。”在 Junchen看来，点子固然重要，但创业成功的关键不在于点子，而在于团队的凝聚力——那种为了共同目标全力以赴的归属感。在创业之前，Junchen在芝加哥大学担任副教授，研究方向聚焦AI系统与底层优化。他本科毕业于清华大学“姚班”，后赴卡内基梅隆大学读博，期间获得CMU CS最佳论文奖，毕业后曾在微软研究院短暂工作。

Tensormesh的创业构思发生在2024年初，彼时，带着大模型底层系统相关的论文四处演讲时，Junchen意识到，在大模型领域，学术界和工业界之间存在着偌大的鸿沟：“AI算法层面工业界跑得更快，系统层面学术界遥遥领先，但双方常常听不懂彼此在说什么。”这种“对话失效”的割裂感让他决定跳出学术象牙塔，投身工业界，把复杂的系统研究做成能被看见、被用起来的产品。“与其说服别人技术有多好，不如直接做给他们看。”

一个普通的冬日午后，在学校楼下的一张桌子旁，他把这个念头第一次讲给学生Yihua听。之后不久，Junchen又找了另一名学生Kuntai，创始团队三人一拍即合、正式“成团”。围绕“打造连接推理引擎与存储服务的桥梁”这个初步设想，LMCache（Tensormesh的起源）雏形初现。2024年下半年，组里的同学们都踊跃把自己的研究项目实现在LMCache的平台上

用Yihua的话来说，Tensormesh是“帮助企业一键部署大模型服务的一套解决方案”。就像给企业递上一把“智能钥匙”，打开AI大模型的门，让它们轻松用上ChatGPT、DeepSeek那样的技术，却不用担心复杂的技术门槛或高昂的成本。部署后，运行成本只有公共API的十分之一，此外，Tensormesh融入自研核心技术，性能比业界主流方案高出甚至十倍以上。

在团队组建后不久，公司就迎来了意料之外的加速度。Tensormesh的第一次融资过程有点非常规——没有写BP，没有路演，仅靠一次熟人引荐。几次交流后，这位投资人带着合伙人飞到芝加哥，一个月后，甚至还没等团队正式启动融资流程，就收到了投资意向书。2025年10月，Tensormesh团队宣布完成种子轮融资，由Laude VC领投，融资金额为450万美元，资金将主要用于产品打磨和团队扩充。

技术层面，Tensormesh力求“打造性能最强的开源引擎”以赢得用户认可；战略上，他们认为“开源不是终点，而是入口”，真正的商业价值在于构建闭源版本。

Tensormesh把目标总结为：打造一套真正人人都在用的系统。“就像提起短视频会想到抖音、说起大数据会想到Databricks那样，未来当人们谈到大模型推理，第一时间想起我们的产品。”他们希望成为支撑下一代AI应用大规模落地的底层操作系统。

当下，Tensormesh正在真实的创业战场中，探索一套不同于学术的认知路径和产品实践。一个最显著的变化是，他们已经不再以“技术是否先进”作为判断标准，而是转向思考：“这项技术对谁有用？如何用？何时用？”这不仅是从研究者到创业者的角色转变，更是整套认知体系的重塑。

此次，Z Potentials专访了Tensormesh的三位联合创始人Junchen、Yihua和Kuntai，他们与我们分享了多个关键人生节点，和对于大模型推理、开源技术以及创业的深度见解。

LLM（大语言模型）的应用基础设施，会像大数据时代的ApacheSpark，像互联网刚出现时的浏览器，或者像智能手机时代的Android/iOS一样，LLM也一定会有这样一套基础软件系统来支撑它的广泛落地。

传统公司越是保守，越需要一套内部系统，他们不可能把命脉交给外部公司。这是个非常大的产业，并且会越来越大。我们做的这套东西，就是现在backend engineer和application developer最需要的之一。

我们做的系统，抽象、机器化的部分是算法，具象、有温度的是每个人独特的数据，这些数据是存储下来的。两者之间的桥梁，就是我们系统里的LMCache，核心是让在算法和人之间建立一道桥梁。

开源与闭源关系的理解。我们觉得不是非此即彼，重点是如何让更多人用上我们最好的技术。我们的目标是让LMCache成为技术上最棒的开源项目，然后再做一套生态系统，让我们公司成为最容易用起来LMCache，也最容易基于LMCache理解用户和大语言模型需求的平台。

开源不是最终形式，开源也不能直接盈利。我们的目标是让LMCache成为技术上最棒的开源项目，然后再做一套闭源的生态系统，让公司成为用起LMCache最方便的平台。

很多问题是真撞了南墙才知道的，比如开源代码写太好，别人就想抄；抄不了就会套个壳来卖。这在学术圈是闻所未闻的事，但在开源界是常规操作。很多困难也因此而起。说实话我们是初生牛犊不怕虎，现在的困难确实很多。但我们能走到今天，一方面是朋友们提供了很多帮助；另一方面是这些学生真的做出了难的的项目。

绝大多数教授创业都失败，说是教授太理想主义。我觉得其实失败的最大原因是学生毕业后没跟着一起创业。教授出来当光杆司令失败太多了，只有这些一直做项目的学生才对教授有足够的了解和信心，才是最大的动力，他们自己也有ownership，会真的有投入。

01 一次关键的方向转型，全员All in AI，构建推理引擎与存储之间的“桥梁”

ZP：请Tensormesh三位创始团队三位嘉宾介绍一下自己。

Junchen:大家好，我是Junchen，芝加哥大学计算机系的教授，也是Tensormesh的联合创始人之一，另外两位创始人是我的学生Kuntai和Yihua。

我本科毕业于清华大学姚班，后来在卡内基梅隆大学读博，研究的是网络视频传输系统，相关算法现在已经广泛应用于短视频和流媒体。博士期间拿过一次最佳论文奖，毕业后在微软研究院工作了一年，2018年加入芝加哥大学任教。

我的研究方向其实一直围绕“AI的底层系统”展开，过去做过视频传输、视频分析系统，也是在系统方向里比较早做这块的。Kuntai就是在当时的项目中做出了很多开创性工作。后来我们团队逐渐把重心转向大语言模型系统的研究，在整个系统领域里也算比较早的一批。

老实说，刚开始我对大语言模型（LLM）没有那么兴奋。我判断一个研究方向是不是值得投入，关键在于：它是否能在未来三到五年真正服务于大多数人。在这点上，早期很多AI应用其实都“雷声大雨点小”，比如计算机视觉，讨论很多，但规模化落地的程度远不如流媒体、云计算或者移动互联网。

直到我深入研究了一些关于GPT的应用场景和商业预测后，才意识到这个技术的爆发速度超出预期。2023年初，很多人还没意识到LLM会这么快成为主流，但我当时判断它会像浏览器之于互联网、Android之于智能手机，成为新一代基础设施。这种变化必然会带来一整套全新的系统需求。

在一次组内讨论时，几个学生，包括Kuntai，Yihua和Yuhan Liu，都跟我提到，我们可能可以做点什么。不只是做研究，而是从底层系统出发，构建真正面向LLM的基础设施——支撑下一代AI应用大规模落地的那层“操作系统”。

ZP：这个决定具体发生在什么时间？

Junchen:2023年2月初，当时正值论文投稿后的空档期。我在团队会议上提出了我们要调整方向：从训练系统转向推理系统的研究。核心依据就是：尽管当时AI领域的研究重心多在训练系统，但我坚信，若AI技术要实现大规模应用，99%以上的计算负载将发生在推理阶段，而非训练阶段。因此，专注于LLM推理系统具有更根本的意义。

彼时LLM领域热度正盛，团队也很有研究热情——然而，此举也引来了一些学界同行的疑问，有人直接质疑：“为何选择这个方向？是不是追热度？”当时其他团队往往是学生推动导师跟进，或由学生独立探索；而我们的转型则是几乎所有成员都明确、主动地将研究重心聚焦于语言模型项目。

ZP：有没有哪个具体场景或瞬间，让你意识到这项技术在未来3~5年内能实现大规模可用？

Junchen：坦白说，当ChatGPT横空出世时，我的第一反应并非像工业界那样感到“震惊”。虽然其展现的能力确实令人惊叹，许多人视其为划时代突破，但我初期的感受更多是“技术发展的必然”。

一个日常场景彻底改变了我的认知。当时我正在使用Microsoft Word，一个再普通不过的编辑建议弹窗突然出现。那一刻我意识到：“这背后很可能就是语言模型在驱动。”无数类似的、看似微小的应用场景瞬间涌入脑海。这让我深刻理解到：大模型的应用天花板极高，当前我们所触及的仅仅是冰山一角。如今尚处于应用场景的初步探索阶段（“一倍”），市场已为之狂热；当未来其应用场景呈指数级增长（“百倍”）时，它将如同水电般融入日常生活，变得不可或缺且习以为常。

因此，我完全认同将ChatGPT称为AI领域的“iPhone时刻”。技术发展史上不乏对“前景”的畅想，但有些突破，你能凭借直觉笃定：这就是真正变革的开端。

ZP：请Kuntai来介绍下自己的经历？

Kuntai：大家好，我是Kuntai。高中时参加信息学竞赛，2015年进入北京大学，2019年赴芝加哥大学攻读博士，目前即将毕业。

我从小对计算机充满热情，最初只是因为想写游戏，觉得很酷。小学时甚至在纸上写for循环，初中在东北师大附中，感谢王晓光老师在计算机课上教授编程，从那时起我便走上了算法竞赛的道路。也因此顺利进入北大，因竞赛背景课程内容偏前沿，接触到了语言模型、计算机视觉等。那时虽对研究充满兴趣，但错过了早期参与NLP研究的机会。直到看到刘家瑛老师的招生介绍，被她的亲切和组里轻松有趣的氛围打动，进入她的组开始做视觉方向研究。

当时正值GAN研究爆火，我也投入其中训练相关模型。这段经历让我意识到，自己的研究兴趣更倾向于系统软件中那种由确定性逻辑驱动的模式。于是开始思考如何向更偏系统和底层的研究方向探索。大三时转入许辰人老师组，做可见光通信相关的软硬件研究。这段经历非常宝贵，硬件研究能够建立新的场景解决新的问题，实验室的老师和同学们能力极强人也很好，给了我许多帮助。也正是在亲手与硬件打交道的过程中，我更加明确了自己的特长和热情更集中于软件架构，希望能在纯软件的领域里构建更复杂的系统。

博士申请时拿到两个offer，我选择了Junchen老师，开始做系统视角下的视频分析，目标是提高运行效率。这个方向做了四年，正好赶上大模型崛起。我面临选择：是稳妥毕业，还是转向一个未知但充满潜力的新方向？

我始终有成为老师的念头，也热爱写作、唱歌，渴望表达。因此当我接触到生成式AI时，内心产生了强烈的共鸣。从简单使用者逐渐转变为思考底层机制的研究者。我在Berkeley实习期间参与推理引擎相关开源项目vLLM，开始切身体会到工业界对于大语言模型的需求，也看到很多开发者在拓展vLLM过程中所面临的挣扎。

那时我开始思考，是否能做一个“连接器”，让用户更便捷地接入底层推理引擎？这个想法逐渐成为我的研究核心，也成为创业方向的雏形——打造连接推理引擎与存储服务的桥梁。

去年暑假，我和Yihua“一拍即合”，正式决定创业。理由很简单：一是现实层面，创业的期望收益更高；二是大模型领域的推进主要依靠工业界，比如国内的千问、DeepSeek，背后都是大量资源和漫长试错积累；三是我希望研究不仅是学术上的兴趣，也成为日常工作的一部分，能做真正有影响力的东西。

非常感谢Junchen老师，他不仅尊重我选择自由，也鼓励我们大胆实践。于是我们决定一起出发，开启这段探索与挑战并存的创业旅程。

ZP：Kuntai“你曾写过‘科学能告诉我们什么是合逻辑的，不能告诉我们什么是值得追求的’。用一句话总结，什么是值得你追求的？”

Kuntai：我想起刘擎老师在《奇葩说》里说过的一些话。我想做的事是：在抽象的部分和具体的人之间，建立一道桥梁。这一直是我前进的方向。

我试着把它具象化成不同的组成部分。比如我们做的系统里，抽象、机器化的部分是算法，具象、有温度的是每个人独特的数据，而这些数据是存储下来的。两者之间的桥梁，就是我们系统里的LMCache，核心是让在算法和人之间建立一道桥梁。

ZP:请Yihua来介绍下自己吧！

Yihua:大家好，我是Yihua。我和Kuntai的经历有很多相似之处，可能因为我们是同一个时代成长起来的。我本科2016年进入北大，2020年毕业后加入Junchen老师团队，今年刚刚博士毕业，目前参与这个创业项目。

我从小就喜欢玩游戏，也很早接触电脑。三岁时父亲就开始教我用电脑，初中时他给我一本旧的Pascal编程书，我照着代码在电脑上敲，虽然经常因为漏掉分号导致程序出错，但依然觉得编程很有趣。之后学校开了编程班，我报名参加，单纯因为喜欢，不是为了竞赛。

初三那年，我姐姐带回一本谭浩强的《C语言教程》，我着迷了整个假期都在自学。高中时曾投入精力学化学竞赛，并因此获得保送北大的资格。没有高考压力后，我又重新拾起编程，学习了Java等语言，为后续发展打下基础。

本科是我成长最快的一段时间。入学时我用的是一台配置较低的办公笔记本，同学们用的是跑得飞快的游戏本。那时非常流行《守望先锋》，我只能16帧运行游戏，而别人能跑60帧。那一刻我开始思考：要有什么办法能让这些程序跑得又快又好就好了，怎么才能加速这些程序？

于是我开始探索多线程、并行计算等方法，后来加入了学校的超算队，参加国际比赛。在那里我第一次系统接触到GPU计算，也学到很多底层优化技术。本科期间我在许辰人老师的组里做研究，毕业设计是一个结合网络与GPU的系统项目，涉及从软件到底层硬件之间的调优。

之后我有幸来到Junchen老师组里读博。刚开始他问我：“你未来想做什么？”我回答：“我想做一个能被非常非常多人用到的东西。”这个愿望成了我读博期间的“北极星”，也指导我选择研究方向。我并不满足于只做“漂亮”的研究，更希望它们能落地、有影响力。

博士期间，我参与了视频编码器相关的研究。视频编码是所有人都会用到的技术，如果我能提升它的效率，它就可能影响很多人。我们尝试用神经网络优化编码器，从而开启了我对AI系统的深入了解。随着ChatGPT的出现，大模型成为热门方向。我开始将此前在系统层面的积累用在AI模型的落地上，从算法实现、系统部署到工程优化积累了大量经验。这些经验也为我日后参与创业打下了基础。

总体来看，本科之前我在不断探索，PhD期间则专注打磨。如今，大模型带来了全新机遇，也让我和志同道合的伙伴走到了一起，我非常期待我们接下来的创业之路。

ZP：Junchen可以稍微展开分享一下你决定组建这个团队、决定创业背后的故事和心路历程？

Junchen：我们一开始是不做大语言模型系统的，但很快觉得这个方向特别有前景。我其实一直在找这样的方向，因为只有少数人看出来的时候，才能做一些disruptive的东西，而且这个东西可能被广泛接纳。

但是一开始我们只是想做学术研究，我在电脑上列了十几篇可以写的paper，觉得有很多东西可以做。当时有几个同学，包括一个叫刘峪含的同学，她是最初做这个方向的之一，写了几篇paper后，我也以学术的方式到处讲。

讲的时候发现有非常大的问题：做AI的人里，算法层面工业界走得比学术圈快很多但都没有落地，因为没有相应的系统，而系统层面反而是学术界超前太多，以至于大家互相听不懂彼此在说什么。关键问题是工业界没有一套灵活的KV cache相关的系统。

这个时候，与其去说服别人这个方向为什么好，不如直接去工业界。你在学术圈里唤不醒你的同僚，但工业界他们还在解决上一代的问题。那个时候我觉得，与其写很多paper最后被淹没，还不如走别的路。

2024年初，我回国待了二十几天。刚回到美国，周二落地，周三就约Yihua吃饭。我拉他去楼下小卖部买了盒饭，我们坐在楼里一张桌子旁，我跟他说：‘我跟你说个事，先别跟别人讲——我们可能要做个 startup，因为我觉得这件事在学术上走不通了。’

第一个找Yihua，是因为他当时刚好一个项目做完，正在考虑接下来的方向，也准备毕业了。我对他说：“先把系统搭出来。”Kuntai那时候忙着赶各种paper，还要去Berkeley。我当时想，先问问Yihua有没有兴趣。毕竟他们俩是我组里最senior的学生——如果Yihua愿意加入，大家可能都会跟着一块做，这是我当时的判断。所以我们先以开源项目的方式开始做，看看能不能走得通。

到了2024年9月，tenure（终身教职）还没下来，我就跟系里说：我准备走了，接下来两年可能不在学校，我当时的判断是——这事不能再拖，必须马上启动。其实也没什么特别的。我的初衷一直是想用学术的方法把这事做出来，但现实逼得我换了条路径，既然学术上走不通，那就创业。

我特别感谢Yihua和Kuntai。说实话，大多数教授创业都失败了，理由往往是教授太理想主义。但我觉得真正的原因，其实是学生毕业后没一起出来创业。教授一个人空降创业，很容易变成光杆司令。反而是这些在组里一直做项目的学生，才是最大的驱动力。他们毕业后能一起创业，有参与感，有 ownership，也愿意投入。

不仅是他们俩，现在我们整个组暑假几乎都在跟着做实习生，大家都在参与这个开源项目。这在学术圈里，其实是挺难得的。

02 解决大模型部署的“三大难题”：隐私、集群管理与成本压力，力争成为“首选入口”

图片来源：受访者提供

ZP：请介绍一下你们的产品是做什么的，面向什么样的用户？

Yihua：一句话概括，就是帮助企业一键部署大模型服务的一套解决方案。

现在大模型很火，比如ChatGPT、DeepSeek、Claude 等，大家都觉得这些东西非常有用，也都想用。成千上万的企业正在尝试把大模型加入到他们的业务中、工作流中，或内部使用的场景中。但他们有若干痛点：比如数据问题，客户数据必须保证隐私安全；或者是公司内部敏感数据不能泄露。所以他们寻求私有化的大模型推理解决方案，比如在公司集群里部署，或在租赁的私有云上部署。但大模型刚出来，本身难以部署、难以运行，要做到这个有三个主要痛点：

第一，把大模型在大规模集群上跑起来非常难。现在很多开源技术都是在单机上跑模型，但如果有几十台甚至几百台机器，就涉及负载均衡、高可用性、部署安装等问题。

第二，大模型集群管理复杂。它不像传统web app，涉及到GPU使用、模型存取、模型性能监控等，大大提高了运维难度。普通工程师很难运维大模型集群。

第三，大模型成本高。推理需要大量GPU，比传统模型成本高很多。尤其大语言模型比传统AI计算需求更大，使用门槛高。

我们的产品正是为了解决这些痛点，提供的是一键部署、高性能、高可用的in-house大模型解决方案。

比如你有私有云或公司内部集群，使用我们的产品，可以实现一键部署模型服务，无需复杂配置，不受环境限制。部署完成后，相比使用ChatGPT或Claude的API，我们的运行成本更低——大约只有十分之一，因为public API往往存在显著的溢价，其收费远高于实际的GPU运算成本。

我们的方案在保障数据隐私的同时，大幅降低成本。更重要的是，在接入我们团队自主研发的核心技术后，性能相比当前工业界主流方案提升了数倍，甚至十倍以上。

ZP：展开讲一讲大语言模型推理这个行业现状。

Junchen: 推理行业现在还是比较新兴。过去大家普遍认为推理只是训练后的附带环节，训练才是核心。但随着模型大规模落地，推理成本已经反超训练，成为更大的挑战。一份半年前的报告就指出，推理支出已超过训练，主要因为使用量快速上升。

训练当然仍然重要，大家都需要更大更强的模型。但推理是一个更普遍、更复杂的问题，它的需求会随着模型使用的普及持续增长，而且上限远高于训练。

推理系统大致分为两类：一类服务于闭源模型，基本只由闭源公司自己运行；另一类则围绕开源模型展开，这一块才真正让整个行业动起来。因为只有开源模型，才能让更多公司和开发者参与其中，建立自己的推理系统。

在开源模型里，又可以分为两种：一类是通用模型，比如LLAMA4这类开放权重的通用基础模型，适合做各种应用，但不具备个性化能力；另一类是经过微调或后训练的定制化模型，基于用户数据做个性化优化，需求越来越多。

对于这些定制模型的推理，主要有两种做法：一是使用Fireworks、Together等托管服务，提供GPU和推理软件打包的一站式解决方案；二是公司内部的AI Infra团队基于开源组件自建系统，把模型部署在自己的机器上。后者非常普遍，但也非常辛苦。我们见过很多工程师在重复造轮子，耗时耗力，但因为涉及自有模型和私有流量，也别无选择。我们想解决的，就是这一类用户的痛点。我们提供的是一个即插即用的本地部署系统，用户可以在自己的机器、自己的模型上，快速完成搭建，性能更强、效率更高、支持的模型也更多。既保障数据安全，又极大节省工程资源。

之所以能做到这些，离不开当前成熟的开源生态，以及我们团队多年积累的研究成果。我们相信，推理是一个真正的大产业，不只是AI公司需要，银行、保险、金融等传统行业同样刚需。今天每个公司都有AI战略，CEO问CIO的第一句话是：“我们的AI战略是什么？”而五年前是：“我们的云战略是什么？”

传统公司越是保守，越需要一套内部系统，他们不可能把命脉交给外部公司。所以这是个非常大的产业，并且会越来越大。这正是我们正在做的，也是当前backend工程师和应用开发者最急需的基础设施。

ZP：相较于行业里传统的缓存方案，你们的创新点在哪里？

Kuntai：大语言模型的服务正从同质化走向定制化。过去大家用的是同一个模型，而现在，每个用户都希望模型能理解自己的数据、语境和需求。

实现定制化，最经济的方式是推理阶段的定制。相比昂贵的训练，推理式定制成本更低、上线更快。它的核心在于：将模型计算中生成的定制化内容缓存起来，也就是所谓的KV Cache，即模型推理过程中生成的key和value向量缓存，用于后续加速。

我们给项目的定位是：专注于推理计算和存储之间的桥梁。市面上已有不少成熟的存储服务，比如Mooncake、Redis，也有越来越成熟的推理引擎，比如各大云厂商的存算一体化方案。但过去缺乏一个专注于“连接存储与推理引擎”的中间层产品，这是我们项目的切入点。

目前，我们已经取得初步成果。例如在vLLM项目中，Mooncake就通过我们引擎实现了存储与推理的对接。我们的系统也不只是工程堆砌，而是从算法需求出发，设计更适配的系统架构。许多系统工程师只做infra，不碰算法，而我们则希望为算法提供真正能落地的执行平台。本质上，AI系统的未来是由算法驱动的。这也决定了机器学习系统与传统系统的不同——它要求系统本身具备足够的弹性和适配力，去支撑快速演化的模型结构与推理方式。

我们最终的目标，是让机器学习工程师的潜力被充分释放。只有这样，Tensormesh才能成为真正有用、被广泛采用的底层系统组件。

ZP：Tensormesh这个产品要做好，在技术上最主要的难点是什么？

Yihua：主要有两点挑战。第一，Tensormesh作为面向企业的in-house部署解决方案，必须适配各种不同的环境和技术栈。企业使用的硬件差异很大，有的用最新的Nvidia GPU，有的用老旧设备；管理方式也各不相同，有的采用Kubernetes集群，有的用其他方案。如何做到在多样化的软硬件环境中实现统一部署，是我们面临的重要难题。

我们正在探索基于容器化技术的方案，借助成熟的容器技术，实现“一套容器跑遍各环境”。这样，无论客户采用何种技术栈，都能快速、简单地部署我们的系统。

第二个难点是如何从算法落地到产品。我们来自学术圈，有很多算法优化的积累，比如让大模型运行得更快、推理结果更好。这些研究通常只需要在paper中体现，并不需要考虑大规模部署或跟已有开源方案的兼容。真正做成产品时，我们必须在现有代码基础上落地新算法，同时确保用户能获得实际的体验提升，这在技术上同样具有挑战。

ZP：推理这个细分行业竞争情况怎么样？我们的主要优势是什么？

Kuntai：目前行业竞争主要体现在已有很多成熟的第三方解决方案，比如API。国内有很多公司在做API，还有很多推理引擎和存储的解决方案。

主流推理引擎如vLLM和SGLang都较为成熟，存储方案也丰富。但市场上缺乏一个非第三方、支持私有部署，且能整合推理引擎、存储、调度和路由等全链路服务的整体解决方案。我们的定位正是填补这一空白，具备联合开发能力，将各环节无缝结合。

另一方面，我们也在结合机器学习的优化，争取把整个系统做得更快、更省资源。

ZP：在开源方面有哪些规划？作为一家商业公司，您打算如何平衡开源与商业利益？

Junchen：这是一个复杂且长期存在的问题。我们选择开源，主要是因为我们的系统需要适配多种环境，如果不开源，所有问题都得由我们先解决，再交给客户。开源是一个让用户先跑起来、先用起来的好方式。

从长远来看，开源并非最终形态，因为开源本身难以盈利。我们的目标是打造性能和技术指标都优于其他开源项目的版本。只要我们的开源领先，接下来挑战就是开源版本基础上添加商业价值的闭源产品。理想状态是，闭源版本最优秀，开源版本也领先市场，这样用户既能免费使用高质量开源，也愿意为更好体验的闭源付费。我们有信心实现这一点，因为我们了解竞争对手的开源水平，同时还有许多技术尚未释放。

开源与闭源之间如何平衡，我觉得这其实是个伪命题。最重要的是让大家能用起来。第一，要做到性能最快、体验最佳的分布式推理系统；第二，是让更多用户便捷使用。开源是实现广泛使用的有效途径，但用户也可能偏好部署简便、体验更好的闭源系统。

换句话说，闭源系统可视为最新技术的便捷入口，帮助用户快速接入和使用我们的成果。这也是我们对开源与闭源关系的理解，我们觉得不是非此即彼，重点是如何让更多人用上最先进的技术。

ZP：在你们的开源项目推进过程中，有没有遇到过一些特别有趣或印象深刻的用户案例？

Yihua：让我印象特别深的一件事发生在公司刚起步、我们还在摸索产品方向的时候。当时我们跟一些潜在客户聊天，其中有一位客户分享说，他们买了NVIDIA的硬件，NVIDIA推荐他们再购买配套软件，每块GPU一年花了几千美元。买完后，对方告诉他们：这套软件还不支持你们买的新硬件，要再等。

这件事让我们意识到，很多公司其实根本不知道怎么把大模型跑起来，基础设施的门槛远比想象中高。痛点非常明确，但市面上并没有一个真正成熟好用的解决方案。NVIDIA硬件的评价一直很好，但软件层面很多人并不满意，最后用户还是不得不回头找NVIDIA买软件，这反过来也说明这个方向是有市场缺口的。这是我们早期非常重要的认知转折点。

还有一个有意思的案例是我们与Bloomberg的合作。他们从一开始就没有使用我们的开源方案，甚至也不是闭源版本的用户。他们完全不在意我们的产品是不是开源，关键在于：你能不能交付一个真正好用、能落地的系统。这让我们意识到，虽然有些公司对开源有强需求，但更多的企业关注的是实际交付能力和使用体验。从Bloomberg这样的客户身上，我们看到的是另一个非常典型、现实的企业需求侧画像。

Junchen：Bloomberg找上门的时候我们也很意外。他们直接拿了我们提供的Docker镜像部署，遇到问题就在Slack上和我们沟通，边跑边调，结果没多久就将系统接入到了线上产品，而且稳定运行了好几个月。

ZP：未来几年我们公司和产品的主要计划是什么？以及最希望达到的目标是什么？

Yihua：从年度目标来看，我们最希望把产品打造成大模型部署的首选入口。就像提到短视频，大家会想到抖音或哔哩哔哩；说到大数据，第一反应是Databricks。

如果我们能做到以后一提到大模型推理，第一个想到的是我们做的产品，那就是我们理想的目标。

ZP：除了把技术和产品做到最好之外，还有什么你们觉得非常重要的事情？

Kuntai：把产品本身打磨好，确实是基础，但它解决的只是“能创造多少价值”的问题。要把这部分价值真正转化为营收，最关键的还是市场和营销。我们希望在这方面做得更好，把产品价值有效带入我们的商业体系中。

此外，除了专注当下的产品，我们也需要具备前瞻性思维，看清几个月后的行业趋势，并提前进行战略布局。比如LMCache就是一个典型案例。它起步于一年前，当时还没有多少关注度，但正是因为那时的提前投入，今天它才能成为我们的支柱性产品。

第三点，我们希望有更好的团队建设。最终一切都是人的问题。有对的人、对的小伙伴、对的氛围，这个非常重要。

03 从学术到商业的认知转变，一次“非常规”融资之路

ZP：恭喜你们刚完成新一轮融资！能否简要介绍一下这轮融资的基本情况？

Junchen：其实我们没有经历一个传统意义上的融资流程——你可能会有点惊讶，我们连项目计划书都没写过。这确实是一种非常规操作，也不一定值得推荐。我们没有经历那种从写BP到路演的完整过程。

我们一开始非常幸运，因为和张晖老师和Ion Stoica一直有联系。2024年夏天，我只是跟他们提了下“想试试开公司”，并没有说要融资。他们就主动介绍了一位很有经验、在业内挺有影响力的投资人给我认识。

我一开始只是跟这个投资人聊了一次，我想认识一下也好，没见过投资人，正好聊聊我们在做的事情。我以为聊完就结束了，没想到对方特别感兴趣，之后两三周就会主动联系一次。

后来投资人直接带着他合伙人飞到芝加哥见我们的团队。我本以为这只是一次正常的catchup。他说上午九点见我们，我跟Yihua和Kuntai说，我们找家咖啡店随便聊聊。去学校的路上，我给张晖老师打了个电话，说：“他人都飞过来了，是想干嘛呀？”张老师问我怎么接待，我说就在附近找地方喝咖啡。他提醒我：“你们得认真点，说点干货。”

我们原本打算今年年初再启动融资，但这位投资人在去年12月就发来了投资意向。整个过程发生得非常快，我们也没来得及再接触其他人。出于对他的信任和认可，我们最终接受了这轮融资。

ZP：从去年12月到现在创业差不多半年，感觉如何？和做学术相比，不一样的地方在哪儿？

Kuntai：首先和做学术最大的区别是，做学术的时候你在乎的是这个东西是不是真的有用，但在创业的时候你更在乎的是这个东西对谁有用。你需要具体到某个客户，具体到某个需求，不能脱离具体的客户去谈空泛的技术。总之就是要拥抱整一套商业的玩法，积极地和它做结合，不只是考虑学术上有没有用，更要考虑在商业上能不能转化。

至于创业的感受，就是事情真多。每一件要做的事情都不是因为只有这些事可以做，而是这些事相对比较重要。你做的每一件事都是你自己的选择。同时你在公司也要工作，回家也要继续工作，你得先给自己画饼，才能给别人画饼。

ZP：你们对十年后的公司有什么期待？

Junchen：我们希望公司未来成为AI的入口。明年，AI应用可能会达到数百万级别，实际上今年已经有大量应用在使用AI推理。我们的目标是，当用户想到推理时，首先联想到的就是我们的产品。

大语言模型（LLM）不会是永恒的存在，AI会持续发展。十年后，AI的形态肯定不同，不会再依赖单一模型或单一API来解决问题。作为系统和网络出身，我认为核心在于流量的产生、接收、数据的生成与消费。

过去二三十年互联网时代，人是内容的主要生产者和消费者，中间的系统只是中介，所有结果最终都是给人看的。但未来十年，这些角色很可能被agent替代——agent这个词十年后可能不流行了，但AI会是背后的存在AI既生成内容，也消费内容，人可能只在其中扮演一小部分的角色。

所以从系统形态上来看，未来很可能是从“以人为本”转向“人类辅助”，虽然哲学上可能还是以人为本，但系统层面不再以人类为中心。

ZP：十年后你对自己的期待是什么。

Junchen：十年后我还在这儿当CEO吗，我不确定。公司和学术是两种完全不同的环境。做教授可以很长时间，但没人能当CEO很多年。因为对公司的要求和期待是不一样的。

Yihua：我刚才想了想，比如十几年前，2010年，那时候还是3G，很难想象十年后会有5G，互联网和各种App也会这么大发展。所以，如果往后看十年，正如Junchen说的，可能真的就是human in the loop的human被拿走，变成了human out of the loop。我觉得十年之后，这个世界上很多东西都会变成完全自动化，被人工智能接管。

我觉得十年后，很多事情都会实现高度自动化，被人工智能接管。在这样的未来，如果我们的公司能在这个领域扮演关键角色，取得成功，那将是非常美好的愿景。

至于我自己，如果十年后AI真的完成了绝大多数工作，比如编程不再需要像现在这样学习，我希望自己还能保留一些AI无法替代的能力。

Kuntai：我希望我们做的东西不仅有技术含量，更带有人文的温度。它不应该只是追求最高效的技术，而是更关注一些非技术的价值——比如能不能给用户带来新的知识，帮助他们更好地探索世界，而不是仅仅在乎产品跑得多快。

当然，这一切都必须建立在技术过硬的基础上。如果没有做好效率，谈这些情怀其实都只是空谈。

至于十年后的自己，我希望能成为一个快乐的老师。

ZP：你想教什么？

Kuntai：其实我很想教“计算的历史”（History of computation），但这又不是我的研究方向，所以我觉得得好好下功夫学一学才行。

ZP：工作以外，兴趣爱好是什么。

Kuntai：我很喜欢下棋。记得当时在微软研究院实习，大家都知道我会下棋，那地方太空旷了，大家一眼就能看到我屏幕上的棋局，摸鱼都没法藏。

Junchen：我喜欢踢球，不过最近忙得没时间，很久没踢了。我特别羡慕张晖老师，他以前几乎每周都踢球，年纪比我大，踢球频率估计比我还高。

Yihua：我从小玩游戏，到现在还在玩，哈哈。平时还喜欢唱歌。

ZP：你们三位是公司的co-founder，有没有想感谢的合作者？

Junchen：要感谢的人太多了，最重要的是能有一群人一起做这件事。特别是我们组里的学生，不仅是Yihua和Kuntai，他们非常强，贡献也很大，但其实几乎所有参与这个项目的学生都在努力付出，不论是学术还是工程方面。

起初，我们的项目其实是作为vLLM的一个插件进行的，他们也给了我们很多帮助。还有，Ion Stoica在创业过程中给予了大量鼓励和指导。还有张晖老师，我以前在CMU的导师，他本人和很多学生都在创业，他的影响力很大，也给了我们很多宝贵建议。

创业后我才意识到，在学术圈里其实是一个相对封闭的圈子，很多关系联系不多。但创业之后你会发现，有很多人愿意帮忙。想对还没创业的教授朋友说：真的可以试试，不然这些关系资源就被浪费了。

Kuntai：首先，非常感谢我们组里的同学，还有张晖老师和Ion Stoica，他们给予了我们极大的帮助。其次，我要感谢我的父母，虽然起初有些顾虑，但最终支持我创业，这对我来说是一个关键的转折。

我还想感谢一些“不期而遇”的伙伴。在决定创业之前，我和Anyscale的前CEO聊过一次，听到了他的人生建议。创业后，我与怀政等许多人深入交流，收获良多。还有vLLM项目的伙伴们，技术和研究上的互动让我受益匪浅。与工业界合作伙伴的对话，也在某些瞬间点燃了思想的火花，实实在在地改变了我的人生轨迹。

请注意，本次访谈内容已经过编辑整理并已获得Junchen Jiang、Yihua Cheng、Kuntai Du的认可，仅代表受访者个人观点。我们也欢迎读者通过留言互动，分享您对本访谈的看法。欲了解更多信息，敬请访问Tensormesh官方网站https://tensormesh.ai/。

Z Potentials将继续提供更多关于人工智能、机器人、全球化等领域的创业者访谈。我们诚邀对未来充满憧憬的您加入我们的社群，与我们共同分享、学习、成长。

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业

关于Z Potentials

01 一次关键的方向转型，全员All in AI，构建推理引擎与存储之间的“桥梁”

02 解决大模型部署的“三大难题”：隐私、集群管理与成本压力，力争成为“首选入口”

03 从学术到商业的认知转变，一次“非常规”融资之路

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签