Wang Lichao home

RAG知识库在房产领域的落地实践:从多路召回、重排到精准问答

08 Otc 2025 - 北京

1、背景:为什么需要构建交易领域的 RAG 系统?

在房产交易这一高度专业化、政策敏感且地域差异显著的领域,用户咨询问题往往具备以下特点:

2、整体架构与流程

“多路召回 + 智能融合 + 重排序 + 约束生成” 的端到端 RAG 流程:

3、问题与解决方案

解决方案:基于 ID 的严格去重 + 内容频次加权 在 Python 融合节点中,我们实现了一套去重逻辑:

python:
多源知识融合
for item in all_sources:
    vdb_id = item['id'] or item['vdbId']
    if vdb_id not in seen_ids:  # 【关键】按唯一ID去重
        seen_ids.add(vdb_id)
        content_counter[item['text']] += 1

# 按出现频次排序:高频内容优先
sorted_contents = sorted(contents, key=lambda x: -content_counter[x])

解决方案:硬过滤 + 动态清洗 在融合阶段显式过滤:

python:
if "?\\n空" not in content:
    result.append(content)
    
prompt:
你必须严格根据以下【参考内容】回答。
如果【参考内容】中没有相关信息,请回答:“根据现有资料无法回答。”
不得使用“可能”、“一般来说”、“我认为”等模糊或主观表述。

后处理规则:

python:
if any(phrase in answer for phrase in ["一般来说", "建议"]):
    return "根据现有资料无法回答。"
    

4、未来优化方向

最后:RAG 不是简单的“检索+生成”,而是一套系统工程。在房产这种高 stakes 场景中,我们必须通过严谨的召回策略、可靠的融合逻辑、强约束的生成机制, 才能构建真正可信的 AI 助手。

Fork me on GitHub