SAF2 星图词条处理Agent设计方案

来自星图

星图词条自动处理Agent设计方案

[编辑 | 编辑源代码]

一、系统概述

[编辑 | 编辑源代码]

基于OpenClaw Gateway + OpenCLI + 两个Skill,设计一个自动化Agent来处理星图词条的采集、生成、人性化和发布流程。

二、核心能力

[编辑 | 编辑源代码]

2.1 数据采集能力(基于OpenCLI)

[编辑 | 编辑源代码]
  • 社交平台搜索:Bilibili、小红书、知乎、微博、豆瓣等
  • 内容抓取:帖子、评论、用户画像、热榜数据
  • 趋势监测:热搜、话题、标签追踪

2.2 内容生成能力

[编辑 | 编辑源代码]
  • 词条撰写:按照星图L1-L5模板生成结构化内容
  • 分类判定:根据SA0指南自动分类到正确层级
  • 交叉标签:自动提取平台、地域、参与方式等标签

2.3 内容优化能力(基于humanizer-zh)

[编辑 | 编辑源代码]
  • 去AI痕迹:移除生成文本的机械感
  • 风格统一:符合星图中性、描述性、可验证的文风
  • 质量评分:自动评估内容质量(50分制)

三、Agent架构设计

[编辑 | 编辑源代码]

3.1 Standing Orders(持久指令)

[编辑 | 编辑源代码]

AGENTS.md 中定义星图词条处理的持久授权:

# 星图词条处理Agent - Standing Orders

## Program: 星图词条自动采集与生成

**Authority:** 
- 搜索社交平台圈层内容
- 采集用户画像、帖子、评论数据
- 生成符合星图标准的词条草稿
- 自动分类和打标签
- 人性化处理文本

**Trigger:** 
- 每日定时扫描(cron: 0 9 * * *)
- 手动触发:收到"处理词条:[主题]"消息
- Webhook触发:外部系统提交新词条请求

**Approval gate:**
- 词条草稿生成后需人工审核
- L1/L2层级词条必须人工确认分类
- 涉及争议内容的词条需标记并等待审批

**Escalation:**
- 无法确定分类层级时
- 发现多个平台数据严重冲突时
- 采集到疑似敏感/违规内容时
- 连续3次生成质量评分<35分时

### Execution Steps

1. **数据采集阶段**
   - 使用opencli搜索目标平台(bilibili/xiaohongshu/zhihu等)
   - 提取关键信息:群体特征、参与方式、平台分布、术语黑话
   - 收集证据:帖子链接、用户数、活跃度数据
   
2. **分类判定阶段**
   - 读取 SA0-星图写作与分类总指南.md
   - 根据参与动机、核心行为、组织方式判定主分类
   - 确定L1-L5层级位置
   - 生成交叉标签(平台、地域、参与方式等)

3. **词条生成阶段**
   - 按照对应层级模板生成MediaWiki格式词条
   - 包含:定义、边界、参与者画像、典型表现、争议与风险
   - 标注证据等级(A/B/C)
   - 建立双向链接

4. **人性化处理阶段**
   - 调用humanizer-zh skill
   - 去除AI生成痕迹
   - 确保符合星图文风:中性、描述性、可验证
   - 质量评分(目标≥40分)

5. **验证与报告阶段**
   - 检查词条完整性(6件事都回答了吗?)
   - 验证分类唯一性和标签准确性
   - 生成处理报告:采集源、分类路径、质量评分
   - 提交审核或保存草稿

### What NOT to Do

- 不要创建一次性热点词条(无社群沉淀)
- 不要收录纯商业促销活动
- 不要使用价值审判语言("低俗/高雅")
- 不要在无法验证时编造数据
- 不要跳过人性化处理步骤
- 不要自动发布未经审核的词条

3.2 Cron Jobs(定时任务)

[编辑 | 编辑源代码]

每日热点扫描任务

openclaw cron add \
  --name staratlas-daily-scan \
  --cron "0 9 * * *" \
  --tz Asia/Shanghai \
  --timeout-seconds 600 \
  --announce \
  --channel telegram \
  --message "执行星图每日热点扫描。检查B站、小红书、知乎热榜,识别新兴圈层。按standing orders处理发现的词条候选。"

每周深度分析任务

openclaw cron add \
  --name staratlas-weekly-analysis \
  --cron "0 14 * * 5" \
  --tz Asia/Shanghai \
  --timeout-seconds 1800 \
  --announce \
  --channel telegram \
  --message "执行星图每周深度分析。回顾本周新增词条,检查分类准确性,更新争议内容,生成质量报告。"

3.3 Task Flow(工作流编排)

[编辑 | 编辑源代码]

词条处理完整流程(Managed模式)

Flow: entry-processing-[topic]
  Step 1: data-collection    → 使用opencli采集多平台数据
  Step 2: classification     → 判定分类层级和标签
  Step 3: draft-generation   → 生成词条草稿
  Step 4: humanization       → 调用humanizer-zh优化
  Step 5: quality-check      → 验证完整性和质量
  Step 6: submit-for-review  → 提交审核队列

3.4 Hooks(事件驱动)

[编辑 | 编辑源代码]

词条提交后钩子 (~/.openclaw/hooks/entry-submitted.sh)

#!/bin/bash
# 词条提交后自动通知审核人员
ENTRY_FILE="$1"
ENTRY_TITLE=$(grep "^= " "$ENTRY_FILE" | head -1 | sed 's/^= //' | sed 's/ =$//')

curl -X POST "https://your-webhook-url" \
  -H "Content-Type: application/json" \
  -d "{\"title\": \"$ENTRY_TITLE\", \"file\": \"$ENTRY_FILE\", \"status\": \"pending_review\"}"

四、实施步骤

[编辑 | 编辑源代码]

4.1 环境准备

[编辑 | 编辑源代码]
  1. 安装OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon
  1. 安装OpenCLI
npm install -g @jackwener/opencli
# 安装Chrome扩展:加载 extension/ 目录到 chrome://extensions
  1. 配置Skills
# 将两个skill复制到OpenClaw skills目录
cp -r ~/Desktop/skills/opencli-usage ~/.openclaw/skills/
cp -r ~/Desktop/skills/Humanizer-zh-main ~/.openclaw/skills/
  1. 配置浏览器登录
  • 在Chrome中登录:Bilibili、小红书、知乎、微博、豆瓣等平台
  • 确保opencli Browser Bridge扩展已启用

4.2 创建工作空间

[编辑 | 编辑源代码]
mkdir -p ~/staratlas-workspace
cd ~/staratlas-workspace

# 创建目录结构
mkdir -p {drafts,published,审核队列,数据采集,质量报告}

# 复制星图指南
cp ~/Documents/KB/main/星图/SA0-星图写作与分类总指南.md ./

4.3 配置Standing Orders

[编辑 | 编辑源代码]

创建 AGENTS.md

# 星图词条处理Agent

[将3.1节的Standing Orders内容粘贴到这里]

## 工作目录结构
- drafts/: 词条草稿
- published/: 已发布词条
- 审核队列/: 待审核词条
- 数据采集/: 原始采集数据
- 质量报告/: 质量评估报告

## 命名规范
- 草稿:`SA-L[层级]-[编码]-[标题]-draft-[日期].md`
- 正式:`SA-L[层级]-[编码]-[标题].md`

4.4 设置Cron任务

[编辑 | 编辑源代码]
# 添加每日扫描
openclaw cron add --name staratlas-daily-scan \
  --cron "0 9 * * *" --tz Asia/Shanghai \
  --timeout-seconds 600 --announce \
  --message "执行星图每日热点扫描"

# 添加每周分析
openclaw cron add --name staratlas-weekly-analysis \
  --cron "0 14 * * 5" --tz Asia/Shanghai \
  --timeout-seconds 1800 --announce \
  --message "执行星图每周深度分析"

五、使用示例

[编辑 | 编辑源代码]

5.1 手动触发词条处理

[编辑 | 编辑源代码]

通过Telegram/WhatsApp发送消息:

处理词条:原神二创圈

Agent会自动:

  1. 搜索B站、小红书、知乎相关内容
  2. 采集数据并分类(可能是L1-C > L2-C2 > L3-xxx)
  3. 生成词条草稿
  4. 人性化处理
  5. 提交审核队列并通知你

5.2 查看处理进度

[编辑 | 编辑源代码]
# 查看活跃的工作流
openclaw tasks flow list

# 查看特定词条处理详情
openclaw tasks flow show entry-processing-原神二创圈

# 查看所有后台任务
openclaw tasks list

5.3 审核词条

[编辑 | 编辑源代码]
  1. 收到审核通知后,打开 审核队列/ 目录
  2. 检查词条内容:
    • 分类是否准确?
    • 6个必答问题都回答了吗?
    • 证据等级标注了吗?
    • 文风是否中性、可验证?
  3. 批准或要求修改

六、质量控制

[编辑 | 编辑源代码]

6.1 自动质量检查

[编辑 | 编辑源代码]

每个词条生成后自动检查:

  • ✓ 主分类唯一且合理
  • ✓ 至少2个交叉标签
  • ✓ 写清"是什么/不是什么"
  • ✓ 有可验证来源
  • ✓ 没有价值评判措辞
  • ✓ 与相邻词条建立双向链接
  • ✓ Humanizer质量评分≥40分

6.2 人工审核要点

[编辑 | 编辑源代码]

必须人工审核的情况:

  • L1/L2层级词条(影响整体分类体系)
  • 涉及争议内容的词条
  • 质量评分35-40分的边缘词条
  • Agent标记为"需要escalation"的词条

审核清单:

  1. 分类准确性:是否放对了L1-L5位置?
  2. 边界清晰度:与相邻类别区分明确吗?
  3. 证据充分性:来源可验证吗?
  4. 文风合规性:是否中性、描述性?
  5. 完整性:6件事都回答了吗?

七、扩展方向

[编辑 | 编辑源代码]

7.1 增强数据源

[编辑 | 编辑源代码]
  • 添加更多平台:抖音、快手、贴吧
  • 接入学术数据库:CNKI、万方
  • 整合媒体报道:36氪、虎嗅

7.2 智能分类优化

[编辑 | 编辑源代码]
  • 训练分类模型:基于历史词条数据
  • 相似度检测:避免重复词条
  • 自动关联:发现词条间隐含关系

7.3 协作功能

[编辑 | 编辑源代码]
  • Webhook集成:连接外部审核系统
  • 多人协作:分配审核任务
  • 版本控制:词条迭代历史追踪

八、注意事项

[编辑 | 编辑源代码]

8.1 数据合规

[编辑 | 编辑源代码]
  • 遵守各平台robots.txt和使用条款
  • 不采集个人隐私信息
  • 敏感内容需特殊标记

8.2 质量优先

[编辑 | 编辑源代码]
  • 宁缺毋滥:质量不达标的词条不发布
  • 持续迭代:定期回顾和更新已发布词条
  • 社群反馈:建立词条纠错机制

8.3 系统维护

[编辑 | 编辑源代码]
  • 定期检查opencli登录状态
  • 监控cron任务执行情况
  • 备份词条数据和配置文件

九、故障排查

[编辑 | 编辑源代码]

9.1 常见问题

[编辑 | 编辑源代码]

问题1:opencli命令失败

# 检查浏览器扩展
opencli doctor

# 重启daemon
openclaw daemon restart

问题2:词条质量评分持续偏低

  • 检查humanizer-zh skill是否正确加载
  • 调整生成提示词,强调星图文风要求
  • 增加人工干预频率

问题3:分类判定不准确

  • 更新SA0指南到最新版本
  • 增加分类示例到standing orders
  • 对边界模糊的案例建立决策树

9.2 日志查看

[编辑 | 编辑源代码]
# 查看Gateway日志
openclaw logs

# 查看特定任务日志
openclaw tasks show <task-id>

# 查看cron执行历史
openclaw cron list

十、总结

[编辑 | 编辑源代码]

这个Agent设计方案充分利用了OpenClaw的自动化能力:

  • Standing Orders 定义持久授权和执行规范
  • Cron Jobs 实现定时扫描和分析
  • Task Flow 编排多步骤处理流程
  • Hooks 处理事件驱动的通知
  • Skills 复用opencli和humanizer能力

通过这套系统,你可以:

  1. 自动发现和采集新兴圈层信息
  2. 按照星图标准生成高质量词条
  3. 保持人工审核的质量控制
  4. 持续迭代和优化词条库

建议从小规模试点开始,逐步扩展到更多平台和词条类型。