在房产交易这一高度专业化、政策敏感且地域差异显著的领域,用户咨询问题往往具备以下特点:
“多路召回 + 智能融合 + 重排序 + 约束生成” 的端到端 RAG 流程:

解决方案:基于 ID 的严格去重 + 内容频次加权 在 Python 融合节点中,我们实现了一套去重逻辑:
python:
多源知识融合
for item in all_sources:
vdb_id = item['id'] or item['vdbId']
if vdb_id not in seen_ids: # 【关键】按唯一ID去重
seen_ids.add(vdb_id)
content_counter[item['text']] += 1
# 按出现频次排序:高频内容优先
sorted_contents = sorted(contents, key=lambda x: -content_counter[x])
解决方案:硬过滤 + 动态清洗 在融合阶段显式过滤:
python:
if "?\\n空" not in content:
result.append(content)
III 专家知识被淹没: “专家生产”内容权威性高,但在向量检索中可能因表述专业而相似度偏低。 解决方案:独立通道 + 高优先级展示 将 专家生产 类知识单独存入 expert_contents; 在最终输出中,优先拼接专家内容,确保其不被普通知识点覆盖。
IV、LLM 自由发挥(幻觉): 即使提供了正确参考,LLM 仍可能添加“一般来说”、“建议咨询”等模糊表述。 Prompt 核心指令:
prompt:
你必须严格根据以下【参考内容】回答。
如果【参考内容】中没有相关信息,请回答:“根据现有资料无法回答。”
不得使用“可能”、“一般来说”、“我认为”等模糊或主观表述。
后处理规则:
python:
if any(phrase in answer for phrase in ["一般来说", "建议"]):
return "根据现有资料无法回答。"
最后:RAG 不是简单的“检索+生成”,而是一套系统工程。在房产这种高 stakes 场景中,我们必须通过严谨的召回策略、可靠的融合逻辑、强约束的生成机制, 才能构建真正可信的 AI 助手。