在之前的博客中,我们探讨了通过 Amazon Bedrock 使用模型微调、提示工程和检索增强生成(RAG)技术从放射科报告中生成诊断结论的方法。第一部分聚焦模型微调,第二部分介绍了结合 LLM 与外部知识库的 RAG 技术,通过实时检索相关医学信息,降低幻觉现象并提升医疗场景的准确性。这两部分内容均使用 ROUGE 分数等传统指标评估性能,这类指标适用于通用摘要任务,但难以有效评估 RAG 系统在医学知识整合和临床准确性方面的表现。
在第三部分,我们引入基于 Amazon Bedrock 的 LLM-as-a-judge 评估框架,专门解决医疗 RAG 系统的独特挑战。该框架要求检索的医学知识准确性和生成内容质量同时符合清晰表达、临床准确和语法正确的严格标准。通过 Amazon 最新模型和 Bedrock Knowledge Bases 新推出的 RAG 评估功能,我们能够全面评估系统检索与应用医学信息生成准确、情景适配响应的能力。
解决方案概述
该方案通过 Amazon Bedrock Knowledge Bases 的评估能力,对放射科发现与结论生成的 RAG 应用进行优化评估。整体架构包含三大阶段:
- 数据准备:使用包含 91,544 份放射科报告的 MIMIC-CXR 数据库(v2.0.0),从中提取 2,000 份去匿名化报告构建数据集(dev1/dev2)。通过转换脚本将原始 {prompt, completion} 数据对转换为 JSONL 格式,上传至 Amazon S3 存储。
- 评估处理:基于 Amazon Bedrock Knowledge Bases 创建评估任务,集成 RAG 系统实现医学语境适配。使用 Claude 3 Haiku(评估模型)与 Nova Micro(生成模型),通过混合搜索策略(检索深度 10)确保知识库覆盖范围。
- 分析优化:通过自动生成的评估报告分析五个核心指标:
- 正确性(3分制):事实准确性
- 完整性(5分制):内容覆盖度
- 有用性(7分制):临床实用价值
- 逻辑连贯性(5分制):推理一致性
- 真实性(5分制):信息来源可信度
关键技术实现
- 数据转换流程:
python
JSONL 格式转换示例
def transform_record(record):
return {
"conversationTurns": [{
"referenceResponses": [{
"content": [{
"text": record["completion"]
}]
}],
"prompt": {
"content": [{
"text": """放射科诊断生成指南:
- 使用清晰术语
- 分条编号呈现
- 按重要性排序
- 内容精简于发现部分
- 考虑阅读者理解水平
发现内容: """ + record["prompt"]
}]
}
}]
}
- 评估任务配置:
python
评估任务参数设置
retrieve_generate_job = bedrock_client.create_evaluation_job(
jobName=f"rag-eval-{datetime.now().strftime('%Y-%m-%d-%H-%M-%S')}",
inferenceConfig={
"ragConfigs": [{
"knowledgeBaseConfig": {
"retrieveAndGenerateConfig": {
"type": "KNOWLEDGE_BASE",
"knowledgeBaseConfiguration": {
"knowledgeBaseId": "<KNOWLEDGE_BASE_ID>",
"modelArn": "amazon.nova-micro-v1:0",
"retrievalConfiguration": {
"vectorSearchConfiguration": {
"numberOfResults": 10,
"overrideSearchType": "HYBRID"
}
}
}
}
}
}]
},
evaluationConfig={
"automated": {
"metricNames": [
"Builtin.Correctness",
"Builtin.Completeness",
"Builtin.Helpfulness",
"Builtin.LogicalCoherence",
"Builtin.Faithfulness"
],
"evaluatorModelConfig": {
"bedrockEvaluatorModels": [{
"modelIdentifier": "anthropic.claude-3-haiku-20240307-v1:0"
}]
}
}
}
)
评估结果分析
| 指标 | MIMIC-CXR(dev1) | 印第安纳数据(dev2) |
|---|---|---|
| 正确性 | 0.98 | 0.97 |
| 完整性 | 0.95 | 0.95 |
| 有用性 | 0.83 | 0.83 |
| 逻辑连贯性 | 0.99 | 0.98 |
| 真实性 | 0.79 | 0.82 |
两个数据集均表现优异,正确性与逻辑连贯性超过 0.95 分,表明系统能准确整合医学知识生成合理结论。通过深入分析低分案例(如 0.5 分样本),发现额外添加未在原始报告中明确提及的"正常肺野"等结论,虽可能合理但缺乏数据支持。这种深度分析能力使系统优化聚焦于检索相关性与生成准确性两个维度。
应用前景
该评估框架为医疗 AI 开发提供三大价值:
- 多维评估体系:首次将临床准确性、内容完整性等医学标准量化
- 动态优化机制:通过检索源追踪实现从数据到结论的全程可解释
- 模型选择依据:揭示 Nova Micro 在生成能力、Claude 在评估维度的优势
随着医疗知识动态更新,持续评估将成为保障 AI 系统可靠性的关键。未来可扩展至电子病历分析、临床决策支持等场景,在保持医学严谨性的同时释放生成式 AI 的创新潜力。
【全文结束】


