起因:写报告写吐了

我在银行做授信审批,每周都要写尽责调查报告。这活儿说难不难,说烦是真烦——翻上期报告、找财报数据、查企业公开信息、组织语言、排版……一套流程下来大半天就没了。

之前用AI写报告也试过,直接问DeepSeek”帮我写一份尽责报告”,出来的东西花里胡哨但不敢用——它没有我的历史报告作参考,不知道我习惯怎么写,也不了解这家企业的具体情况。

我想要的是一个真正懂我的工具:能参考我上期报告的写法,能用我上传的财报数据,能自己上网查公开信息,能记住我纠正过的问题,越用越好用。


一、跟小助理聊需求

我有个Hermes Agent小助理,平时帮我处理文件、写写文稿。我把想法跟她一说,她噼里啪啦给我写了一份十几页的可行性分析。

第一次讨论的核心问题:要不要自建向量数据库?

小助理的建议是——别。智谱AI知识库有1GB永久免费存储,上传文件后自动解析、分块、向量化一条龙,省去了搭Milvus或ChromaDB的麻烦。查了一下,确实香。

然后定下了技术栈:

1
2
3
4
5
前端+后端:Streamlit(Python)
文档存储:智谱AI知识库(1GB免费)
联网搜索:???——这个后面说
报告生成:DeepSeek API
部署环境:Docker

二、折腾联网搜索

写尽责报告需要查企业公开信息——工商信息、诉讼记录、负面舆情。小助理一开始推荐了智谱的Web Search API,但要钱(0.01~0.05元/次)。

我说智谱的搜索也要钱啊?那换呗。

后来发现知乎开放平台有站内搜索全网搜索两个接口,同一个Token就能用,每天1000次免费额度够个人使用。

又聊到企查查API,查企业信息确实准,但一看价格是面向金融机构收费的,几万一年起步。算了,知乎全网搜索能搜到裁判文书网和信用中国的内容,做尽职调查的公开信息搜集够用了。

最终方案:

  • 文档检索 → 智谱知识库
  • 联网搜索 → 知乎API(站内+全网,免费)
  • 网页全文提取 → 可配免费小模型(接入Cloudflare Workers AI)
  • 内容生成 → DeepSeek API

全程零成本联网搜索,这组合拳打下来舒服了。


三、「项目」概念的诞生

跟小助理一来一回聊需求,每聊出来一个点她就更新规划文档——我提”四类文件上传”,她加上;我说”加模型选择Flash/Pro”,她加上;我说”要登录密码”,她加上。

聊到对话历史持久化时,我提了一个想法——引入「项目」概念:

一个项目从创建到完成,期间的对话历史、上传文件、报告草稿都保留着。项目完成后,点一下「完成项目」,自动清理知识库里的文件、删除临时数据、清掉对话历史,只保留导出的Word文档

小助理很认同,在架构里加了一层SQLite持久化,还设计了完成项目后的自动清理流程。后来她参考Hermes Agent补充了一个Memory机制——AI在对话中被我纠正过的问题自动记录,下次自动避免,越用越懂我。

这个「项目+记忆」的设计我挺喜欢的——不拖泥带水,每次任务干净利落,经验又一直在积累


四、动手——AI IDE

方案定好了,但问题来了:我没时间手写代码(主要是不会)。

小助理推荐用某款国内AI IDE来开发,它的SOLO模式可以直接用自然语言描述需求,AI自动拆解执行。

把阶段一的Prompt丢进去:

“请帮我创建一个Streamlit项目’尽责报告助手’,左侧侧边栏四个分类文件上传区(上期报告/本期模板/本期资料/参考报告),右侧聊天界面,带登录密码……”

一顿操作出来结果出乎意料——它不只是搭了个骨架,而是把整个项目一次性生成了:

模块 说明
auth.py 密码登录 + 免登有效期 + 登录频率限制
project.py SQLite完整持久化,5张表,项目CRUD+记忆管理
ui.py 侧边栏+主区完整界面,流式对话,逐章报告生成
chat_engine.py DeepSeek流式调用,记忆注入,自动学习
knowledge_manager.py 智谱知识库全链路(上传/删除/检索/状态查询)
search_manager.py 知乎双搜+小模型提取
export_manager.py Word导出,含封面目录页眉,专业排版

9个模块2500多行代码,全是SOLO模式一次生成的,后续我在进行了一些外观样式的调整。后来查了下token消耗,整个开发过程AI IDE跑了大概1.3亿 tokens,而DeepSeek API调用(开发流程)只花了5块钱——可见AI消耗大头在代码生成和调试,真正跑起来的推理成本反而很低。


写在最后

这次开发的感受,总结几点:

  1. AI写代码已经能用了,但需要人想清楚需求。AI IDE能把需求变成代码,但前提是你得知道自己要什么。跟小助理来回讨论了大概十几轮,写了5个版本的规划文档,才把需求磨清楚。

  2. “越用越好用”的设计比功能本身更重要。Memory机制、项目概念、逐章确认……这些设计不是为了第一次好用,而是为了第十次好用。投入时间打磨这些,工具才会越来越顺手。

  3. 成本没你想的那么高。智谱知识库免费、知乎搜索免费、小模型提取免费,开发阶段AI IDE跑了1.3亿tokens,DeepSeek推理总共才5块钱。正式跑起来一份报告估计也就几毛钱,整月用下来不到一杯奶茶钱


项目代码开源在:github.com/cg0726/ddai-agent


后续计划

第一版跑起来了,后续想折腾的方向:

数据源扩展
知乎搜索覆盖面还行,但查企业信息不如专业商查平台准。后续打算看看有没有合规的免费/低价API能接入,或者用爬虫定时抓取裁判文书网、信用中国的数据建本地索引。

更智能的报告编排
目前是逐章生成+人工确认,后续想让AI能理解整份报告的逻辑脉络——写第二章时自动引用第一章的结论,写风险评价时自动关联前面的财务数据。这需要更好的上下文管理。

本地模型兜底
DeepSeek API虽然便宜,但偶尔也会有延迟或限流。计划在极空间上用ollama跑个小模型(比如Qwen2.5),做日常问答和网页提取,只有正式报告才走DeepSeek Pro,进一步降本的同时也保证响应速度。

memory机制深化
现在memory是关键词匹配后注入Prompt,比较简单。后续想做两层记忆——项目级别的短期记忆(本项目内踩的坑)和全局级别的长期记忆(你写报告的一贯风格偏好),在不同粒度上发挥作用。

有同行在做类似工具的欢迎交流,互相学习 😊