SAF2 星图词条处理Agent设计方案
来自星图
基于OpenClaw Gateway + OpenCLI + 两个Skill,设计一个自动化Agent来处理星图词条的采集、生成、人性化和发布流程。
- 社交平台搜索:Bilibili、小红书、知乎、微博、豆瓣等
- 内容抓取:帖子、评论、用户画像、热榜数据
- 趋势监测:热搜、话题、标签追踪
- 词条撰写:按照星图L1-L5模板生成结构化内容
- 分类判定:根据SA0指南自动分类到正确层级
- 交叉标签:自动提取平台、地域、参与方式等标签
- 去AI痕迹:移除生成文本的机械感
- 风格统一:符合星图中性、描述性、可验证的文风
- 质量评分:自动评估内容质量(50分制)
在 AGENTS.md 中定义星图词条处理的持久授权:
# 星图词条处理Agent - Standing Orders
## Program: 星图词条自动采集与生成
**Authority:**
- 搜索社交平台圈层内容
- 采集用户画像、帖子、评论数据
- 生成符合星图标准的词条草稿
- 自动分类和打标签
- 人性化处理文本
**Trigger:**
- 每日定时扫描(cron: 0 9 * * *)
- 手动触发:收到"处理词条:[主题]"消息
- Webhook触发:外部系统提交新词条请求
**Approval gate:**
- 词条草稿生成后需人工审核
- L1/L2层级词条必须人工确认分类
- 涉及争议内容的词条需标记并等待审批
**Escalation:**
- 无法确定分类层级时
- 发现多个平台数据严重冲突时
- 采集到疑似敏感/违规内容时
- 连续3次生成质量评分<35分时
### Execution Steps
1. **数据采集阶段**
- 使用opencli搜索目标平台(bilibili/xiaohongshu/zhihu等)
- 提取关键信息:群体特征、参与方式、平台分布、术语黑话
- 收集证据:帖子链接、用户数、活跃度数据
2. **分类判定阶段**
- 读取 SA0-星图写作与分类总指南.md
- 根据参与动机、核心行为、组织方式判定主分类
- 确定L1-L5层级位置
- 生成交叉标签(平台、地域、参与方式等)
3. **词条生成阶段**
- 按照对应层级模板生成MediaWiki格式词条
- 包含:定义、边界、参与者画像、典型表现、争议与风险
- 标注证据等级(A/B/C)
- 建立双向链接
4. **人性化处理阶段**
- 调用humanizer-zh skill
- 去除AI生成痕迹
- 确保符合星图文风:中性、描述性、可验证
- 质量评分(目标≥40分)
5. **验证与报告阶段**
- 检查词条完整性(6件事都回答了吗?)
- 验证分类唯一性和标签准确性
- 生成处理报告:采集源、分类路径、质量评分
- 提交审核或保存草稿
### What NOT to Do
- 不要创建一次性热点词条(无社群沉淀)
- 不要收录纯商业促销活动
- 不要使用价值审判语言("低俗/高雅")
- 不要在无法验证时编造数据
- 不要跳过人性化处理步骤
- 不要自动发布未经审核的词条
每日热点扫描任务
openclaw cron add \
--name staratlas-daily-scan \
--cron "0 9 * * *" \
--tz Asia/Shanghai \
--timeout-seconds 600 \
--announce \
--channel telegram \
--message "执行星图每日热点扫描。检查B站、小红书、知乎热榜,识别新兴圈层。按standing orders处理发现的词条候选。"
每周深度分析任务
openclaw cron add \
--name staratlas-weekly-analysis \
--cron "0 14 * * 5" \
--tz Asia/Shanghai \
--timeout-seconds 1800 \
--announce \
--channel telegram \
--message "执行星图每周深度分析。回顾本周新增词条,检查分类准确性,更新争议内容,生成质量报告。"
词条处理完整流程(Managed模式)
Flow: entry-processing-[topic]
Step 1: data-collection → 使用opencli采集多平台数据
Step 2: classification → 判定分类层级和标签
Step 3: draft-generation → 生成词条草稿
Step 4: humanization → 调用humanizer-zh优化
Step 5: quality-check → 验证完整性和质量
Step 6: submit-for-review → 提交审核队列
词条提交后钩子 (~/.openclaw/hooks/entry-submitted.sh)
#!/bin/bash
# 词条提交后自动通知审核人员
ENTRY_FILE="$1"
ENTRY_TITLE=$(grep "^= " "$ENTRY_FILE" | head -1 | sed 's/^= //' | sed 's/ =$//')
curl -X POST "https://your-webhook-url" \
-H "Content-Type: application/json" \
-d "{\"title\": \"$ENTRY_TITLE\", \"file\": \"$ENTRY_FILE\", \"status\": \"pending_review\"}"
- 安装OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon
- 安装OpenCLI
npm install -g @jackwener/opencli
# 安装Chrome扩展:加载 extension/ 目录到 chrome://extensions
- 配置Skills
# 将两个skill复制到OpenClaw skills目录
cp -r ~/Desktop/skills/opencli-usage ~/.openclaw/skills/
cp -r ~/Desktop/skills/Humanizer-zh-main ~/.openclaw/skills/
- 配置浏览器登录
- 在Chrome中登录:Bilibili、小红书、知乎、微博、豆瓣等平台
- 确保opencli Browser Bridge扩展已启用
mkdir -p ~/staratlas-workspace
cd ~/staratlas-workspace
# 创建目录结构
mkdir -p {drafts,published,审核队列,数据采集,质量报告}
# 复制星图指南
cp ~/Documents/KB/main/星图/SA0-星图写作与分类总指南.md ./
创建 AGENTS.md:
# 星图词条处理Agent
[将3.1节的Standing Orders内容粘贴到这里]
## 工作目录结构
- drafts/: 词条草稿
- published/: 已发布词条
- 审核队列/: 待审核词条
- 数据采集/: 原始采集数据
- 质量报告/: 质量评估报告
## 命名规范
- 草稿:`SA-L[层级]-[编码]-[标题]-draft-[日期].md`
- 正式:`SA-L[层级]-[编码]-[标题].md`
# 添加每日扫描
openclaw cron add --name staratlas-daily-scan \
--cron "0 9 * * *" --tz Asia/Shanghai \
--timeout-seconds 600 --announce \
--message "执行星图每日热点扫描"
# 添加每周分析
openclaw cron add --name staratlas-weekly-analysis \
--cron "0 14 * * 5" --tz Asia/Shanghai \
--timeout-seconds 1800 --announce \
--message "执行星图每周深度分析"
通过Telegram/WhatsApp发送消息:
处理词条:原神二创圈
Agent会自动:
- 搜索B站、小红书、知乎相关内容
- 采集数据并分类(可能是L1-C > L2-C2 > L3-xxx)
- 生成词条草稿
- 人性化处理
- 提交审核队列并通知你
# 查看活跃的工作流
openclaw tasks flow list
# 查看特定词条处理详情
openclaw tasks flow show entry-processing-原神二创圈
# 查看所有后台任务
openclaw tasks list
- 收到审核通知后,打开
审核队列/目录 - 检查词条内容:
- 分类是否准确?
- 6个必答问题都回答了吗?
- 证据等级标注了吗?
- 文风是否中性、可验证?
- 批准或要求修改
每个词条生成后自动检查:
- ✓ 主分类唯一且合理
- ✓ 至少2个交叉标签
- ✓ 写清"是什么/不是什么"
- ✓ 有可验证来源
- ✓ 没有价值评判措辞
- ✓ 与相邻词条建立双向链接
- ✓ Humanizer质量评分≥40分
必须人工审核的情况:
- L1/L2层级词条(影响整体分类体系)
- 涉及争议内容的词条
- 质量评分35-40分的边缘词条
- Agent标记为"需要escalation"的词条
审核清单:
- 分类准确性:是否放对了L1-L5位置?
- 边界清晰度:与相邻类别区分明确吗?
- 证据充分性:来源可验证吗?
- 文风合规性:是否中性、描述性?
- 完整性:6件事都回答了吗?
- 添加更多平台:抖音、快手、贴吧
- 接入学术数据库:CNKI、万方
- 整合媒体报道:36氪、虎嗅
- 训练分类模型:基于历史词条数据
- 相似度检测:避免重复词条
- 自动关联:发现词条间隐含关系
- Webhook集成:连接外部审核系统
- 多人协作:分配审核任务
- 版本控制:词条迭代历史追踪
- 遵守各平台robots.txt和使用条款
- 不采集个人隐私信息
- 敏感内容需特殊标记
- 宁缺毋滥:质量不达标的词条不发布
- 持续迭代:定期回顾和更新已发布词条
- 社群反馈:建立词条纠错机制
- 定期检查opencli登录状态
- 监控cron任务执行情况
- 备份词条数据和配置文件
问题1:opencli命令失败
# 检查浏览器扩展
opencli doctor
# 重启daemon
openclaw daemon restart
问题2:词条质量评分持续偏低
- 检查humanizer-zh skill是否正确加载
- 调整生成提示词,强调星图文风要求
- 增加人工干预频率
问题3:分类判定不准确
- 更新SA0指南到最新版本
- 增加分类示例到standing orders
- 对边界模糊的案例建立决策树
# 查看Gateway日志
openclaw logs
# 查看特定任务日志
openclaw tasks show <task-id>
# 查看cron执行历史
openclaw cron list
这个Agent设计方案充分利用了OpenClaw的自动化能力:
- Standing Orders 定义持久授权和执行规范
- Cron Jobs 实现定时扫描和分析
- Task Flow 编排多步骤处理流程
- Hooks 处理事件驱动的通知
- Skills 复用opencli和humanizer能力
通过这套系统,你可以:
- 自动发现和采集新兴圈层信息
- 按照星图标准生成高质量词条
- 保持人工审核的质量控制
- 持续迭代和优化词条库
建议从小规模试点开始,逐步扩展到更多平台和词条类型。