进度汇报

智能路由项目

在 LiteLLM 网关上的请求级智能模型路由

汇报人hsh

日期2026-05-21（周四）

阶段MVP · 联调前

项目概览

我们在做什么 · 为什么做

在 LiteLLM（统一代理多个大模型的网关）上加一层智能路由 —— 客户端只填一个占位模型名，系统自动决定这次该用哪个真实大模型。

💰

用得划算

简单请求走便宜模型、难请求才上贵模型 —— 不为每一次调用都付高价。

🔍

全程可追溯

每条请求都记录「为什么这么选」，事后随时可查，便于排查与优化。

🔌

客户端零改造

调用方代码不用改；后端增减、替换模型，对业务无感。

一句话：让每一个请求自动落到「能力够用，又最划算」的模型上，决策过程透明可查。

项目概览02 / 10

路由设计 · 1/2

一次请求是怎么被路由的

请求进来后，在发给真实模型之前，会顺序走完六步判断 ——

1

记录

留存请求内容
供后续训练用

→

2

看需求

有没有图、要不要
调工具、文字多长

→

3

判难度

简单 / 中等 / 困难

→

4

列候选

列出能接
这一档的模型

→

5

看会话

同一对话
尽量用回原模型

→

6

挑选

排除不合适的
再加权挑一个

↓ 把选中的模型交还给 LiteLLM 正常发出 —— 整个过程毫秒级，每一步判断都记录在案

这六步对应五块能力：日志采集 · 硬约束过滤 · 难度分类 · 会话粘性 · 加权随机选择 —— 共同保证「选得对、选得稳、选得划算」。

路由设计03 / 10

路由设计 · 2/2

部署架构与一项关键调整

「判难度」这一步要靠一个小模型完成。整条链路原本设想拆成三块独立部署，本周对齐后决定合并中间一块。

原设想三块各自部署

LiteLLM 网关

我们的路由层所在

→网络

预处理层

独立后端服务，整理 / 加工请求

→网络

4090 服务器

跑小模型，判断请求难度

本周决策合并为两块

LiteLLM 网关

我们的路由层

＋

预处理函数

原预处理层代码，隔离成独立函数

→网络

4090 服务器

跑小模型，判断请求难度

为什么合并：中间层独立服务部署不顺、还要为它单独搭一套压测环境，成本不划算。合并后代码仍隔离成独立函数 —— 算法侧能单独维护，互不干扰。

路由设计04 / 10

工作进展

目前进展 —— 代码侧已就绪

五块核心能力全部开发完成并通过测试，路由逻辑本身已具备上线条件。

✓ 已完成

日志采集

✓ 已完成

硬约束过滤

✓ 已完成

难度分类

✓ 已完成

会话粘性

✓ 已完成

加权随机选择

195

单元测试 · 全部通过

5

端到端实机测试 · 真实请求跑通

242

LiteLLM 原有测试通过 · 对上游零影响

结论：代码侧风险已基本收敛。当前未完成的部分，是与算法侧的联调和真实环境压力测试 —— 见下页。

工作进展05 / 10

工作进展

本周卡点 —— 周三为何未完成

周三的计划是对 4090 上的小模型做上限压力测试（测它每秒能扛多少请求），没能完成。

🚧

卡点

压测服务器到 4090 的网络一直没连通

压不出可信数据没有低延迟的网络环境，压测结果会被网络拖累、不能作数 —— 压了也白压。

中间层也部署不起来预处理服务在测试环境起不来 —— 已据此决定合并进 LiteLLM（见上页），规避这块。

定性：这是外部网络 / 运维环境的依赖问题，不是路由代码的问题。代码侧已就绪、测试通过，环境一通即可推进。

工作进展06 / 10

下一步计划 · 本周

本周怎么推进

环境与代码两条线并行推进，目标是周五盘后完成第一次上线测试。

今天周四 · 05-21

算法组

前往现场探索压力测试，排查并打通压测服务器到 4090 的网络。

hsh

继续修改代码，把算法侧预处理代码合并进 LiteLLM、做成隔离函数。

→

周五盘后05-22

关键节点

利用盘后窗口做上线测试 —— 智能路由在真实环境第一次端到端跑通。

盘后窗口业务量低、影响可控，是验证的安全时机；前提是今天网络能打通。

下一步计划07 / 10

下一步计划 · 下周

下周方向（视本周结果）

上线测试跑通后，下周从「能跑」转向「调优」，重点有三块 ——

1

路由策略探索对比两种取向 —— 优先省成本（命中即复用上次模型），还是优先保能力（先选够用的模型再省钱），考虑让业务方按需选择。

2

分类模型优化算法侧持续打磨判难度的小模型，提升分类准确率与响应速度。

3

优化目标的取舍明确到底优化什么、如何平衡 —— 成本、缓存命中率、首字响应速度、难题档模型的能力上限，几个目标之间需要决策定夺。

下周具体节奏取决于本周上线测试的结果；若环境受阻，下周首要任务仍是打通联调。

下一步计划08 / 10

小结

小结 · 风险与信心

✓ 信心

代码侧风险低

五大功能开发完成，195 项单元测试 + 5 项实机测试通过，对 LiteLLM 上游零影响。

⚠ 风险

外部网络环境

主要风险在压测服务器到 4090 的网络连通性 —— 属外部依赖，已由算法组现场推进。

★ 关键节点

周五盘后上线测试

第一次真实环境端到端验证；结果决定下周是进入调优、还是继续攻联调。

总体判断：项目主体进展顺利，路由逻辑已就绪；当前瓶颈是外部环境，不在代码本身。打通网络后即可快速推进上线。

小结09 / 10

Q&A

欢迎讨论

智能路由项目

我们在做什么 · 为什么做

用得划算

全程可追溯

客户端零改造

一次请求是怎么被路由的

记录

看需求

判难度

列候选

看会话

挑选

部署架构 与 一项关键调整

目前进展 —— 代码侧已就绪

本周卡点 —— 周三为何未完成

本周怎么推进

下周方向（视本周结果）

小结 · 风险与信心

Q&A

部署架构与一项关键调整