尽责报告AI助手开发记录

起因：写报告写吐了

我在银行做授信审批，每周都要写尽责调查报告。这活儿说难不难，说烦是真烦——翻上期报告、找财报数据、查企业公开信息、组织语言、排版……一套流程下来大半天就没了。

之前用AI写报告也试过，直接问DeepSeek”帮我写一份尽责报告”，出来的东西花里胡哨但不敢用——它没有我的历史报告作参考，不知道我习惯怎么写，也不了解这家企业的具体情况。

我想要的是一个真正懂我的工具：能参考我上期报告的写法，能用我上传的财报数据，能自己上网查公开信息，能记住我纠正过的问题，越用越好用。

一、跟小助理聊需求

我有个Hermes Agent小助理，平时帮我处理文件、写写文稿。我把想法跟她一说，她噼里啪啦给我写了一份十几页的可行性分析。

第一次讨论的核心问题：要不要自建向量数据库？

小助理的建议是——别。智谱AI知识库有1GB永久免费存储，上传文件后自动解析、分块、向量化一条龙，省去了搭Milvus或ChromaDB的麻烦。查了一下，确实香。

然后定下了技术栈：

前端+后端：Streamlit（Python）
文档存储：智谱AI知识库（1GB免费）
联网搜索：？？？——这个后面说
报告生成：DeepSeek API
部署环境：Docker

二、折腾联网搜索

写尽责报告需要查企业公开信息——工商信息、诉讼记录、负面舆情。小助理一开始推荐了智谱的Web Search API，但要钱（0.01~0.05元/次）。

我说智谱的搜索也要钱啊？那换呗。

后来发现知乎开放平台有站内搜索和全网搜索两个接口，同一个Token就能用，每天1000次免费额度够个人使用。

又聊到企查查API，查企业信息确实准，但一看价格是面向金融机构收费的，几万一年起步。算了，知乎全网搜索能搜到裁判文书网和信用中国的内容，做尽职调查的公开信息搜集够用了。

最终方案：

文档检索 → 智谱知识库
联网搜索 → 知乎API（站内+全网，免费）
网页全文提取 → 可配免费小模型（接入Cloudflare Workers AI）
内容生成 → DeepSeek API

全程零成本联网搜索，这组合拳打下来舒服了。

三、「项目」概念的诞生

跟小助理一来一回聊需求，每聊出来一个点她就更新规划文档——我提”四类文件上传”，她加上；我说”加模型选择Flash/Pro”，她加上；我说”要登录密码”，她加上。

聊到对话历史持久化时，我提了一个想法——引入「项目」概念：

一个项目从创建到完成，期间的对话历史、上传文件、报告草稿都保留着。项目完成后，点一下「完成项目」，自动清理知识库里的文件、删除临时数据、清掉对话历史，只保留导出的Word文档。

小助理很认同，在架构里加了一层SQLite持久化，还设计了完成项目后的自动清理流程。后来她参考Hermes Agent补充了一个Memory机制——AI在对话中被我纠正过的问题自动记录，下次自动避免，越用越懂我。

这个「项目+记忆」的设计我挺喜欢的——不拖泥带水，每次任务干净利落，经验又一直在积累。

四、动手——AI IDE

方案定好了，但问题来了：我没时间手写代码(主要是不会)。

小助理推荐用某款国内AI IDE来开发，它的SOLO模式可以直接用自然语言描述需求，AI自动拆解执行。

把阶段一的Prompt丢进去：

“请帮我创建一个Streamlit项目’尽责报告助手’，左侧侧边栏四个分类文件上传区（上期报告/本期模板/本期资料/参考报告），右侧聊天界面，带登录密码……”

一顿操作出来结果出乎意料——它不只是搭了个骨架，而是把整个项目一次性生成了：

模块	说明
`auth.py`	密码登录 + 免登有效期 + 登录频率限制
`project.py`	SQLite完整持久化，5张表，项目CRUD+记忆管理
`ui.py`	侧边栏+主区完整界面，流式对话，逐章报告生成
`chat_engine.py`	DeepSeek流式调用，记忆注入，自动学习
`knowledge_manager.py`	智谱知识库全链路（上传/删除/检索/状态查询）
`search_manager.py`	知乎双搜+小模型提取
`export_manager.py`	Word导出，含封面目录页眉，专业排版

9个模块2500多行代码，全是SOLO模式一次生成的，后续我在进行了一些外观样式的调整。后来查了下token消耗，整个开发过程AI IDE跑了大概1.3亿 tokens，而DeepSeek API调用（开发流程）只花了5块钱——可见AI消耗大头在代码生成和调试，真正跑起来的推理成本反而很低。

写在最后

这次开发的感受，总结几点：

AI写代码已经能用了，但需要人想清楚需求。AI IDE能把需求变成代码，但前提是你得知道自己要什么。跟小助理来回讨论了大概十几轮，写了5个版本的规划文档，才把需求磨清楚。
“越用越好用”的设计比功能本身更重要。Memory机制、项目概念、逐章确认……这些设计不是为了第一次好用，而是为了第十次好用。投入时间打磨这些，工具才会越来越顺手。
成本没你想的那么高。智谱知识库免费、知乎搜索免费、小模型提取免费，开发阶段AI IDE跑了1.3亿tokens，DeepSeek推理总共才5块钱。正式跑起来一份报告估计也就几毛钱，整月用下来不到一杯奶茶钱。

项目代码开源在：github.com/cg0726/ddai-agent

后续计划

第一版跑起来了，后续想折腾的方向：

数据源扩展
知乎搜索覆盖面还行，但查企业信息不如专业商查平台准。后续打算看看有没有合规的免费/低价API能接入，或者用爬虫定时抓取裁判文书网、信用中国的数据建本地索引。

更智能的报告编排
目前是逐章生成+人工确认，后续想让AI能理解整份报告的逻辑脉络——写第二章时自动引用第一章的结论，写风险评价时自动关联前面的财务数据。这需要更好的上下文管理。

本地模型兜底
DeepSeek API虽然便宜，但偶尔也会有延迟或限流。计划在极空间上用ollama跑个小模型（比如Qwen2.5），做日常问答和网页提取，只有正式报告才走DeepSeek Pro，进一步降本的同时也保证响应速度。

memory机制深化
现在memory是关键词匹配后注入Prompt，比较简单。后续想做两层记忆——项目级别的短期记忆（本项目内踩的坑）和全局级别的长期记忆（你写报告的一贯风格偏好），在不同粒度上发挥作用。

有同行在做类似工具的欢迎交流，互相学习 😊