AI PRODUCT & WORKFLOW PORTFOLIO

张蕾
AI 应用方向|工作流提效|AI产品经理

以好奇心探索 AI 边界,
以产品思维定义场景,
让 AI 能力服务于真实需求和具体流程。

一起创造一些有用的东西。

13132528079 | 506879016@qq.com

HEATWAVE

热浪

3 个卖点 × 5 种结构 × 2个平台= 30 条素材,一次生成

HeatWave 是面向代运营团队和中小品牌的批量内容生成系统。它将产品卖点、内容结构和平台规则标准化,自动生成适配抖音 / 小红书的素材矩阵,让每条内容在角度、开头和说服逻辑上保持差异化。

MIRROR

镜像

15 万字长文本 → 10 分钟 → 一份可追溯的认知画像

Mirror 不是摘要工具,而是一个个人思维模型提取系统。通过四层蒸馏,从原始语料中提取一个人的判断前提、推理路径和表达策略,生成可复用的认知画像。可用于模仿写作、生成文案,或辅助咨询。

MATCHPOINT

对位

15 个 JD,5 分钟完成岗位筛选与优化分析

对位是一套面向求职与招聘场景的双阶段 AI 匹配系统。通过 L1 粗筛与 L2 深度分析流程,对JD和候选人简历进行结构化分析,并生成直观的的评分优先级列表,帮助用户快速完成岗位投递规划与简历筛选。

关于我

建筑学出身,习惯把复杂问题拆成可执行的结构。2023 年开始系统探索 AI 应用,vibe coding 出现后全面转向 AI 工具开发与工作流设计。

我做东西有一个原则:从自己的真实需求出发。对位是因为我自己在筛岗位,Mirror 是因为我自己要快速拆解别人的思维方式——先有痛点,再设计方案,做完自己用,不好用就迭代。这不是练手项目,是正在跑的工具。

我相信 AI 应用岗最核心的能力不是"会用工具",而是能看懂业务流程里哪些环节值得重构,然后把方案落地。6年的建筑设计经历锻炼了我需求拆解和方案迭代的能力;在小企业做管理运营,让我对业务流程中的低效环节有直觉。这两段经历加上现在的 AI 应用能力,就是我带到下一份工作里的东西。

目前在找 AI 应用方向、AI 产品经理、 工作流提效方向的岗位。把重复工作做成 AI 流程,把个人经验沉淀为团队资产,为真实工作流搭建可落地的 AI 工具,期待与您共事。

Contact : 13132528079 | 506879016@qq.com

张蕾

关于我

建筑学出身,习惯把复杂问题拆成可执行的结构。2023 年开始系统探索 AI 应用,vibe coding 出现后全面转向 AI 工具开发与工作流设计。

我做东西有一个原则:从自己的真实需求出发。对位是因为我自己在筛岗位,Mirror 是因为我自己要快速拆解别人的思维方式——先有痛点,再设计方案,做完自己用,不好用就迭代。这不是练手项目,是正在跑的工具。

我相信 AI 应用岗最核心的能力不是"会用工具",而是能看懂业务流程里哪些环节值得重构,然后把方案落地。6年的建筑设计经历锻炼了我需求拆解和方案迭代的能力;在小企业做管理运营,让我对业务流程中的低效环节有直觉。这两段经历加上现在的 AI 应用能力,就是我带到下一份工作里的东西。

目前在找 AI 应用方向、AI 产品经理、 工作流提效方向的岗位。把重复工作做成 AI 流程,把个人经验沉淀为团队资产,为真实工作流搭建可落地的 AI 工具,期待与您共事。

13132528079(微信同号)

506879016@qq.com

张蕾
0/4
WORK →

从人工作业到批量生产的工作流

多品牌并发痛点: 传统代运营团队通常需要同时服务 5–10 个品牌。以一款宠物零食为例,3 个核心卖点需要通过场景痛点、测评对比、用户证言等不同内容结构触达不同目标人群,仅单轮策略就会产生 30+ 条内容变体。

生命周期短、高频补充: 素材在社媒平台的生命周期极短,效果衰减后会导致 CTR 下降、投放成本上升,团队通常每 5–10 天 就需要完成新一轮的批量素材补充。

平台生态差异: 抖音强调前 3 秒注意力争夺,需要冲突感和反差感开场;小红书以搜索需求为主,更适合直接给出解决方案。同一卖点往往需要针对不同平台重新编写。

HeatWave 解决的核心问题是:将"卖点 × 结构 × 平台适配"的传统内容生产流程,从重复的人工作业转变为"一次结构化输入、批量多平台输出"的自动化工作流。

传统方式 VS 热浪
[访问DEMO] [GitHub]

核心设计判断

判断一:架构确定性 vs 用户自由度

痛点洞察: 运营最大的认知负担不是"写文案",而是"定切入角"。每次面对空白文档,人工选题都会导致极高的决策成本。

产品解法: HeatWave 将决策前置。用户无需苦思冥想,只需勾选卖点与结构,系统通过 生成数量 = 卖点数 ×结构 的乘法矩阵,自动穷尽所有确定的内容交叉点。

权衡取舍:放弃了"让用户自由输入角度描述"。自由度越高,大模型的输出质量越不可控。用预置结构替代自由输入,牺牲了部分长尾自由度,换来的是极高的输出稳定性与可预期性。

判断一示例

小红书

狗狗便臭到邻居投诉?换粮2周解决了🙏🏻

姐妹们!我终于找到解决狗狗便臭的方法了😭 必须来分享一下,真的太有用了!

💩 先说说我有多崩溃

每天下班回家打开门,那个味道...真的是生化武器现场😷 狗狗一拉完,整个客厅都不能待人。最夸张的是,隔壁邻居专门来敲门,委婉地说"是不是该开窗通风了"...

当时我真的社死了🫠

...

抖音

狗狗便臭熏到邻居投诉?这个配方救了我

【分镜1】

画面:主人捂着鼻子打开狗笼,表情痛苦,背景是邻居敲门的画面

文案:崩溃了!狗狗每次拉完,整个客厅都是"生化武器"现场,邻居都来敲门投诉了...

【分镜2】

画面:特写狗狗便便画面(打码处理),主人无奈清理的背景

文案:软便、便臭、肠胃敏感,试了好几种粮都没用,每天铲屎都像在渡劫

判断二:平台适配是 逻辑重构 ,而非 格式转换

痛点洞察: 同一款宠物零食的"单肉源低敏"卖点,在不同平台的说服路径存在本质差异。误把 小红书文案加几个 emoji 当成平台适配,是传统 AI 工具流产出 AI味 浓厚、转化率低的通病。

逻辑拆解:HeatWave 的平台重构不是换格式——不是把段落加上 emoji 就变成小红书。而是四个维度各自重做:起点逻辑(拦截 vs 直给)、信息结构(线性 vs 分段)、语气(指令式 vs 对话式)、行动号召(立刻行动 vs 收藏备用)。

权衡取舍:放弃了 多平台一键同时生成 。HeatWave 强制用户先选择单一平台再进行重构,从底层切断了"两边都能用、两边都平庸"的内容通病,确保每条素材都具备绝对明确的投放意图。

判断三:用"可验证标签"治理大模型的同质化幻觉

痛点洞察: 当要求 LLM 单次批量生成 15 条素材时,大模型会习惯性走"最小阻力路径"——仅在表面更换同义词或语序,导致内容高度同质化。在 Prompt 里写"请保证每条都不一样"这种模糊约束,大模型通常会直接忽略。

工程解法(两层显性约束):

结构模板强限制: 从底层代码限制表达逻辑。"场景痛点型"从困扰切入,"测评对比型"从数据切入,结构不同,开头天然分流。

角度标签可视化: 每条素材输出时强制携带其"卖点来源 + 结构来源"的底层标签,将"感觉差不多"的多样性模糊体验,转化为100% 可视化验证的数据矩阵。

同一产品、不同结构生成的素材标题

三肉配方_知识引导型

为什么兽医都建议成犬吃"三肉配方"?

三肉配方_测评对比型

实测5款成犬粮,这款性价比让我意外

三肉配方_场景痛点

狗狗关节咔咔响?别等到走不动才后悔

判断四示例

判断四:从单次生成到跑通 ROI 闭环的爆款裂变

痛点洞察: 素材测试符合"赛马机制",测出 5% 的头部品类爆款后,核心痛点是如何快速"榨干其生命周期"。

解法: 锁定黄金素材,基于 四层严谨维度启动一键多维微调裂变生成多条变体素材:

  1. 表达方式变体: 微调措辞与句式,保持核心卖点不动。
  2. 平台变体: 抖音/小红书跨平台底层重构。
  3. 结构变体: 调整内容顺序与段落结构。
  4. 重写开头: 仅重写前 3 秒黄金时间线的黄金钩子。

权衡取舍: 严格限制在原素材的信息范围内,宁可降低生成惊艳感,也要确保高 ROI 转化基因的绝对继承。

判断五:用RAG 爆款召回治理 LLM 的无实物创作

痛点洞察: 原生生成充满AI 味,单纯用 Prompt 告诉模型"请模仿网感",会由于缺乏上下文参照,流于表面。

解法: 建立基于真实市场反馈的爆款素材库:

  1. 粗筛(FTS5 检索):当用户输入特定卖点时,系统首先通过 SQLite FTS5 全文索引,在本地爆款素材库中进行高并发的关键词匹配粗筛。
  2. 精筛(相似度量化):对粗筛结果进行向量或文本相似度计算。严格限制阈值 0.7,只有超过该置信度的真正相关爆款,才会被动态注入到 Prompt 的 Context 中,作为模型的风格和结构参考。

权衡取舍: 放弃"全语料模糊匹配"。若无素材跑赢 0.7 的阈值,宁可不给参考,也不引入低相关素材污染模型上下文。

判断五示例

系统架构

系统架构图

选型理由:

选 FastAPI 而不是 Coze:需要自定义并发控制(每批合并 3 条素材生成,多批并发执行,理论提速 3-10 倍)和角度标签生成逻辑(每条素材必须标注卖点来源和结构来源),Coze 工作流无法精确控制 Prompt 的结构约束。

项目现状

已完成

  • 前端界面(产品管理 / 素材生成 / 素材列表 / 素材详情)
  • 后端 API(FastAPI,含接口文档)
  • 前后端核心功能联调测试
  • 7 种结构模板设计与实现
  • 平台重构逻辑(抖音 ↔ 小红书四步重构)
  • FTS5 爆款风格参考召回
  • 部署上线(腾讯云)
  • 自定义结构模板

计划中

  • 人工质量分级(素材按三档标注)
  • 真实品牌方素材 A/B 投放验证
  • 多模型支持(DeepSeek / 豆包)
  • 投放数据记录管理

说明:

这是一个 Dogfood 项目。面向的是宠物食品品牌,选这个品类是因为卖点标准化(成分、营养、适口性)、内容模式成熟(痛点场景、测评对比、用户证言),适合验证结构化生成的通用性。

下一步:

1.把已生成素材做人工质量分级,统计"可直接用"的比例,作为生成质量的基线指标;

2.将高质量素材用于真实投放,收集 CTR 和互动数据验证实际效果。

← BACK TO WORK

从 长文本到认知画像的渐进式蒸馏系统

把文本直接给AI获取摘要,仅解决"把长变短"的通用需求。

Mirror 解决的是深层认知建模:自动化提炼演讲者长期的判断前提、推理路径与结论置信度。

面临挑战:在四层渐进蒸馏过程中,层与层之间存在严重的信息漂移与幻觉累积。

产品决策:放弃链式输入,设计每层严格以 Layer 1 (段落索引) 作为强约束输入的架构,确保生成结论均有原文凭据可追溯。

质量闭环:内置评估模块,输出置信度评分 + Bad Case 检测机制,将 AI 确定性控制在可交付标准。

Mirror 架构图
[访问DEMO] [GitHub]
真实应用示例1 真实应用示例2

真实应用

10 分钟克隆"咨询师",完成高密度虚拟咨询

我将某职场/商业播客主的全部公开文本输入系统。在 10 分钟内产出其认知画像后,我直接将这份结构化的画像作为 System Prompt 注入大模型,让 AI 深度复刻了这位咨询师的思维网络。我带着自身迫在眉睫的"人生路径问题",与这个克隆出的咨询师 AI 进行了深度对齐。

高拟真交互

由于画像精准锁定了她的"判断框架"与"推理路径",AI 的回答直接切入了其标志性的核心思维方式,而非泛泛的通用套话。这次对话帮我理清了持续数月的迷茫。

产品延伸价值

这证明了 Mirror 的核心价值——它不仅能把长变短,更能通过精准提取出的思维模型,无缝衔接角色扮演场景。它让原本冰冷的文本摘要,变成了可交互、可深度对齐的专属思想分身。

架构设计:为什么不让大模型一步到位?

直接让 LLM 吞下 15 万字并生成认知画像,极易得到一份看似结构完整、实则证据不可追溯且充满幻觉的低置信度报告。

Mirror 的核心在于:将黑盒式的长文本分析,拆解为四层独立、单向解耦的流水线任务。

Layer 0 — 结构化压缩

输入:原始长文本语料

输出:Markdown 结构化纯净语料

工程策略:作为文本压缩专家角色,去除口语化重复与噪点。严格要求保留所有核心观点、论据与实例,维持原文语气与逻辑,将长文本体积进行无遗漏压缩,解决大模型长文本注意力退化问题。

Layer 1 语义索引

Layer 1 — 语义索引与候选假设

输入:Markdown 结构化纯净语料

输出:段落级分类标记 + 候选假设列表

产品设计:过滤非关键干扰信息,将文本打上"判断型/推理型/表达型/描述型"标签。它是后续所有分析的唯一底层证据锚点。

Layer 2 — 推理规则提取

输入:Layer 1 的结构化段落索引

输出:作者的稳定推理路径(How he/she thinks)

核心关注:剥离具体的事件结论,只提取作者"如何从前提走向结论"的通用推理范式。

Layer 2 推理规则
Layer 3 表达策略

Layer 3 — 表达策略分析

输入:Layer 1 的结构化段落索引

输出:论证风格、句式结构与观点展开顺序

边界约束:设置严格的低置信度防御。只有在多个语境中反复出现的表达缺口才会被捕捉,拒绝让 AI 将未提及过度脑补为刻意回避。

Layer 4 — 认知画像生成

输入:Layer 1(证据链) + Layer 2(推理引擎) + Layer 3(表达策略)的分析结果

输出:结构化、可导出的标准 JSON/Markdown 画像

过滤规则:仅聚合中高置信度结论。低证据内容强制归入 risk_notes(风险提示),输出包含核心假设、推理引擎、表达策略、使用说明的完整画像。

Layer 4 最终画像

核心产品决策

零串联防御:层间漂移(Drift)防护机制

在工程实现上,Layer 2 与 Layer 3 完全独立并行,绝不串联上一层的生成结果。所有中间层均单向锚定在 Layer 1 的同一套原文证据上。这种彻底的解耦设计,从根本上切断了误差与幻觉在流转过程中的逐层放大,确保最终画卷的每条结论都有据可查。

技术栈

React 19 · Vite · Tailwind CSS · FastAPI · PostgreSQL · Claude Sonnet 4 · 腾讯云

质量控制:怎么证明结果不是 AI 幻觉?

机制一:证据回链

每条核心假设、推理规则和表达策略都绑定 evidence_ids。

用户可以从任何一条结论点击回看:这条判断来自哪些段落、哪些文本来源。

如果一条判断找不到足够证据,它不能进入高置信度结果。

证据回链示例
置信度评分机制

机制二:置信度评分

置信度不是让模型自己打分。是根据硬规则计算的。

这套规则不完美,但比"让 AI 判断自己准不准"可靠。

机制三:Bad Case 检测

系统会扫描画像内部是否存在矛盾。

比如同一份画像中同时出现:

"该对象高度依赖数据证据做判断"

"该对象主要依赖直觉经验快速下结论"

系统会标记为潜在矛盾,要求回看证据来源。如果两条规则适用于不同场景,拆成场景化规则;如果无法解释,降低置信度或移出最终画像。

Bad Case 检测机制

项目现状

Mirror 目前已完成核心功能开发和个人验证。系统能够稳定处理 15 万字级别的长文本,生成的认知画像质量已达到可用标准。

下一步计划将其产品化,面向知识工作者、内容创作者和咨询从业者提供服务。

← BACK TO WORK

批量 JD 与简历的双端
渐进式匹配系统

核心问题:传统筛选简历和JD的问题不是"不会
看",而是批量判断时标准会漂。

单看一个 JD 没问题。但手上同时有十几个的时候,三件事开
始出错:

信息分散。 同一个岗位的关键要求散布在职责、任职要求、加
分项、团队介绍里,人工判断要在 JD 和简历之间反复切换。

标准漂移。 前几个看得仔细,后面凭感觉;标题吸引人的被高
估,JD 写得复杂的被误判。

结果不能直接用。 看完只剩"这个好像行""那个不太行"的模糊
印象,真要定投递顺序、改简历、排准备时间,还得重新整
理。

所以对位要做的不是"让 AI 帮我读 JD",是把 JD 判断变成统
一标准下的批量评分流程,输出一张能直接用来做决策的表。

核心问题
核心流程

核心流程

先粗筛硬门槛,再做规则化评分。

如果让 AI 直接回答"这个岗位适不适合我",结果通常是一段看起来很合理、但用户根本没
办法复查和对比的模糊分析。对位的解法是把批量判断卡成两个独立阶段:

L1 · 结构化粗筛(不值得投的,不浪费 Token 和精力)

AI 只负责把原始 JD 拆清楚,抠出岗位定位、硬门槛和风险点。
拿到 "Yes" 进入下一阶段,否则直接淘汰。
根据写死在 Prompt 里的规则进行初步匹配——求职者必须满足所有硬门槛(如特定的专业
技能、证书、同岗年限),且 JD 中不包含不可接受的风险点(如明显的 996 信号),才能
效果:十几个 JD 跑完 L1 阶段不到一分钟,迅速砍掉不切实际的岗位。

L2 · 规则化评分与建议(针对过关岗位,输出行动指南)

只处理 L1 拿到 "Yes" 的岗位。把提取出的具体要求和求职者信息逐项对照,按固定权重计
算出 0-100 之间的推荐分值。
除了总分,还会清晰明确地给出加分项满足度、作品集要求、针对该岗位的简历优化建议、
以及投递策略。

双端验证

这套筛选逻辑不依赖输入方向,换到招聘端照样跑通。
这套两阶段的结构是通用的。为了验证它的可迁移性,我做了
双端设计。

求职端(主线):一份简历 + 多个 JD——产出投递优先级
表,帮忙找准优化简历的方向。

招聘端(验证):一个 JD + 多份候选人简历 ——反向产出初
筛排序,附带面试考察重点。

尽管目前招聘端只支持文本粘贴,但它证明了这套方法的底层
引擎是完全可复用的。

双端验证-求职端 双端验证-招聘端

工程落地

AI 产出不稳定,工程的工作就是给AI套上缰绳。

放弃 Coze,重做零依赖网页:第一版是用 Coze 配合飞书表格做的,只要飞书的字段改一个字就会崩
溃,且别人没法用。我觉得只有自己能用的工具叫自嗨,最不懂技术的人也能打开、粘贴即用的才叫提
效。于是用纯前端网页重做,彻底去掉了环境依赖。

四层 JSON 回退解析:在真实测试中,大模型返回的 JSON 经常不干净,夹带代码块或格式嵌套出
错,导致系统频繁崩溃。我写了四层容错(直接解析——去代码块 ——正则表达式提取 ——错误兜底
记录)。

分批容错隔离:批量处理时,若某个岗位因 API 报错,最初会导致整批数据丢失。改为逐个批次做
try-catch 处理,失败的跳过,成功的保留。

技术栈:纯前端 HTML + CSS + JavaScript · Python 3 HTTP Server · Claude API

工程落地

验证、边界与可迁移性

用真实投递结果反思工具的边界。

验证方式:用我自己的简历和多份真实 JD 进行了多轮对比。经过多轮 Prompt 微调,目前输出结果基
本能稳定反映我的真实投递判断。

这个工具做不到什么:
它是辅助判断工具,降低的标准漂移,不能替代最终面试。
极度依赖输入质量。如果企业写的 JD 本身就是一堆模糊的废话,系统目前无法自动清洗这种低质量
输入。

可迁移的价值:
这套方法解决的是典型的"重复判断型劳动"。未来进入团队,无论是内容审核打标、用户反馈分类、还
是知识库质检,都可以直接搬用这套"标准显性化——结构约束——零门槛工具"的思路来做团队提效。

← BACK TO WORK