维护一个生产级的 LLM 应用,我们需要做什么
- 各种指标监控与统计:访问记录、响应时长、Token 用量、计费等等
- 调试 Prompt
- 测试/验证系统的相关评估指标
- 数据集管理(便于回归测试)
- Prompt 版本管理(便于升级/回滚)
针对以上需求,目前有两个生产级 LLM App 维护平台
- LangFuse: 开源 + SaaS(免费/付费),LangSmith 平替,可集成 LangChain 也可直接对接 OpenAI API;
- LangSmith: LangChain 的官方平台,SaaS 服务(免费/付费),非开源,企业版支持私有部署;
根据自己的技术栈,选择:
- LangFuse:开源平台,支持 LangChain 和原生 OpenAI API
- LangSmith: LangChain 的原始管理平台
- Prompt Flow:开源平台,支持 Semantic Kernel
LangFuse
开源,支持 LangChain 集成或原生 OpenAI API 集成
项目地址:https://github.com/langfuse
文档地址:https://langfuse.com/docs
API文档:https://api.reference.langfuse.com/
- Python SDK:
https://python.reference.langfuse.com/ 通过官方云服务使用:
- 注册: cloud.langfuse.com
- 创建 API Key
1 | LANGFUSE_SECRET_KEY="sk-lf-..." |
- 通过 Docker 本地部署
1 | # Clone repository |
几个基本概念
- Trace 一般表示用户与系统的一次交互,其中记录输入、输出,也包括自定义的 metadata 比如用户名、session id 等;
- 一个 trace 内部可以包含多个子过程,这里叫 observarions;
- Observation 可以是多个类型:
- Event 是最基本的单元,用于记录一个 trace 中的每个事件;
- Span 表一个 trace 中的一个”耗时”的过程;
- Generation 是用于记录与 AI 模型交互的 span,例如:调用 embedding 模型、调用 LLM。
- Observation 可以嵌套使用。
通过装饰器记录(上报)
observe() 装饰器的参数
1 | def observe( |
1 | from langfuse.decorators import observe |
通过 langfuse_context 记录 User ID、Metadata 等
1 | from langfuse.decorators import observe, langfuse_context |
通过 LangChain 的回调集成
1 | from langfuse.decorators import langfuse_context, observe |
用 Trace 记录一个多次调用 LLM 的过程
1 | import uuid |
用 Session 记录一个用户的多轮对话
1 | @observe() |
数据集与测试
在线标注(在平台上进行标注)
上传已有数据集
定义评估函数
运行测试
Prompt 调优与回归测试
Prompt 版本管理
目前只支持 Langfuse 自己的 SDK
1 | # 按名称加载 |
如何比较两个句子的相似性:一些经典 NLP 的评测方法(选)
用途:比较llm 返回值和预期值,从而进行打分计算
- 编辑距离:也叫莱文斯坦距离(Levenshtein),是针对二个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
- 具体计算过程是一个动态规划算法:https://zhuanlan.zhihu.com/p/164599274
- 衡量两个句子的相似度时,可以以词为单位计算
- BLEU Score:
- 计算输出与参照句之间的 n-gram 准确率(n=1…4)
- 对短输出做惩罚
- 在整个测试集上平均下述值
- 函数库:https://www.nltk.org/_modules/nltk/translate/bleu_score.html
- Rouge Score:
- Rouge-N:将模型生成的结果和标准结果按 N-gram 拆分后,只计算召回率;
- Rouge-L: 利用了最长公共子序列(Longest Common Sequence)
- 函数库:https://pypi.org/project/rouge-score/
- 对比 BLEU 与 ROUGE:
- BLEU 能评估流畅度,但指标偏向于较短的翻译结果(brevity penalty 没有想象中那么强)
- ROUGE 不管流畅度,所以只适合深度学习的生成模型:结果都是流畅的前提下,ROUGE 反应参照句中多少内容被生成的句子包含(召回)
- METEOR: 另一个从机器翻译领域借鉴的指标。与 BLEU 相比,METEOR 考虑了更多的因素,如同义词匹配、词干匹配、词序等,因此它通常被认为是一个更全面的评价指标。
- 对语言学和语义词表有依赖,所以对语言依赖强。
此类方法常用于对文本生成模型的自动化评估。实际使用中,我们通常更关注相对变化而不是绝对值(调优过程中指标是不是在变好)。
基于 LLM 的测试方法
LangFuse 集成了一些原生的基于 LLM 的自动测试标准。
具体参考:https://langfuse.com/docs/scores/model-based-evals
划重点:此类方法,对于用于评估的 LLM 自身能力有要求。需根据具体情况选择使用。