Skip to content

Commit 2ffd9bb

Browse files
author
vimpas
committed
1
1 parent b0a3ced commit 2ffd9bb

File tree

2 files changed

+68
-0
lines changed

2 files changed

+68
-0
lines changed
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,12 @@
1+
draft: false
2+
summary:
3+
---
4+
5+
# 转成markdown格式
6+
7+
marker https://github.com/VikParuchuri/marker
8+
9+
# 专门的处理非结构化数据的工具
10+
11+
unstructured: https://github.com/Unstructured-IO/unstructured
12+
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,56 @@
1+
---
2+
title: '如何评价自己的rag效果'
3+
date: '2024-10-10'
4+
tags: ['RAG']
5+
draft: false
6+
summary:
7+
---
8+
9+
目前有几种比较流行和有效的RAG评估方法:
10+
11+
1. RAGAS框架:
12+
13+
https://github.com/explodinggradients/ragas
14+
15+
这是一个专门用于评估RAG系统的框架,提供了一套综合性的评估指标[1][2]:
16+
17+
- 上下文相关性(Context Relevancy):评估检索到的上下文与问题的相关程度
18+
- 上下文召回率(Context Recall):评估是否检索到了回答问题所需的所有必要信息
19+
- 忠实度(Faithfulness):评估生成答案的事实准确性
20+
- 答案相关性(Answer Relevance):评估生成答案与问题的相关程度
21+
22+
RAGAS不依赖人工标注的标准答案,可以自动化评估RAG系统的性能。
23+
24+
2. LangSmith:
25+
这是LangChain提供的评估工具,可以对RAG系统的各个组件进行细粒度评估[4]:
26+
27+
- 可以评估检索器、提示模板等中间步骤
28+
- 支持自定义评估函数
29+
- 提供了一些内置的评估指标
30+
31+
3. TruLens:
32+
这是另一个自动化评估框架,主要关注三个指标[5]:
33+
34+
- 上下文相关性
35+
- 忠实度
36+
- 答案相关性
37+
38+
4. 人工评估:
39+
虽然耗时,但人工评估仍然是一种重要的评估方法,可以提供高质量的反馈[5]
40+
41+
5. TRIAD框架:
42+
这个框架将RAG评估分为三个主要部分[6]:
43+
44+
- 上下文相关性:评估检索部分
45+
- 忠实度:评估生成的响应是否准确且基于检索的文档
46+
- 答案相关性:评估生成的响应对查询的有用程度
47+
48+
在实践中,可以结合使用多种评估方法和指标,以全面评估RAG系统的性能。同时,根据具体应用场景选择最合适的评估方法也很重要。
49+
50+
Citations:
51+
[1] https://evalscope.readthedocs.io/zh-cn/latest/blog/RAG/RAG_Evaluation.html
52+
[2] https://liduos.com/how-to-evaluate-rag-application.html
53+
[3] https://blog.csdn.net/m0_46850835/article/details/136377919
54+
[4] https://www.53ai.com/news/RAG/2024072859461.html
55+
[5] https://blog.csdn.net/DEVELOPERAA/article/details/140430751
56+
[6] https://myscale.com/blog/zh/ultimate-guide-to-evaluate-rag-system/

0 commit comments

Comments
 (0)