在 LiteLLM(统一代理多个大模型的网关)上加一层智能路由 —— 客户端只填一个占位模型名,系统自动决定这次该用哪个真实大模型。
简单请求走便宜模型、难请求才上贵模型 —— 不为每一次调用都付高价。
每条请求都记录「为什么这么选」,事后随时可查,便于排查与优化。
调用方代码不用改;后端增减、替换模型,对业务无感。
请求进来后,在发给真实模型之前,会顺序走完六步判断 ——
留存请求内容
供后续训练用
有没有图、要不要
调工具、文字多长
简单 / 中等 / 困难
列出能接
这一档的模型
同一对话
尽量用回原模型
排除不合适的
再加权挑一个
「判难度」这一步要靠一个小模型完成。整条链路原本设想拆成三块独立部署,本周对齐后决定合并中间一块。
五块核心能力全部开发完成并通过测试,路由逻辑本身已具备上线条件。
周三的计划是对 4090 上的小模型做上限压力测试(测它每秒能扛多少请求),没能完成。
环境与代码两条线并行推进,目标是周五盘后完成第一次上线测试。
上线测试跑通后,下周从「能跑」转向「调优」,重点有三块 ——
欢迎讨论