这是一个专为 AI Agent 设计的技能(Skill),能够从小红书(Xiaohongshu)中无缝提取、分析并智能合成高质量的多模态内容(包括文本、图片和用户评论)。
由于小红书具有严格的反爬虫机制,传统的 HTTP 请求通常会失败。本技能依托 playwright-cli 在带有 UI 的浏览器(Headed Browser)中模拟真实用户行为,绕过拦截并获取有价值的数据。此外,技能会调用 Agent 的大语言模型(LLM)的多模态视觉能力,亲自“闭环阅读”抓取下来的图表和文字,最终输出一份极具深度的综合调研报告。
- 绕过反爬限制:使用带有真实 UI 的
playwright-cli自动化脚本,模拟真实的浏览器环境。 - 深层数据提取:自动点击进入搜索结果的热门笔记,遍历图片轮播图(Slider)以触发懒加载,捕获所有隐藏的图片细节。
- 互动评论抓取:提取热门精华评论,直观反映真实受众的情绪、常见反馈与避坑经验。
- 本地知识沉淀:将高清原图(
.webp或.jpg)批量下载至本地,并生成聚合了图文路径的原始数据底稿 ([keyword]_raw_data.md)。 - AI 智能多模态合成:Agent 会同时阅读本地目录的底稿文件与图片视觉文件,将原先零散的单篇笔记打碎、重组,融合出一份按主题分类、逻辑详尽的终极调研报告。
请确保您的系统安装了以下依赖,并且它们已添加至系统环境变量(PATH)中:
- playwright-cli
python3(配合内置的requests库以下载图片资源和整合 Markdown)
本技能主要提供给 AI Agent 进行自动化调度,但其内部的抓取脚本也可由人类手动独立运行。
运行目录底层的 Bash 封装脚本,启动 Playwright 进行搜索与内容爬取:
./scripts/run.sh "你的搜索关键词" [最大爬取篇数] [输出目录]你的搜索关键词:需要检索的话题(例如 "数据平台搭建")。最大爬取篇数:想横向对比的头部高赞笔记数量(默认10)。输出目录:图片素材与原始数据底稿.md的保存路径(默认./)。
使用示例:
./scripts/run.sh "openclaw使用场景" 10 "./xhs_report_openclaw_scenarios"当 Bash 脚本执行完毕,将素材吐出到 <输出目录>/[keyword]_raw_data.md 后,AI Agent 会接受指令自动接管下一步:
- Agent 阅读这份原始文本大纲。
- Agent 调用其专属的视觉工具(Vision / File Reading)直接查看刚才下载到本地的高清图片。
- Agent 综合理解图片里的表格、步骤与文案中的核心经验,去重分类整合多元观点,最后生成一份具有高度参考价值的分析报告:
<输出目录>/[keyword]_synthesis.md。
- 用户登录拦截:小红书可能会随机弹出扫码或验证码登录挑战。此时,爬虫浏览器的窗口会自动挂起。用户只需在弹出的浏览器可视窗口中手动完成登录或图形验证操作,之后脚本会继续跑通。
- 元素选择器超时:小红书的前端 DOM 结构会不定期发生变化。如果脚本频繁提示“节点超时没找到 (Timeout waiting for selector)”,通常是因为选择器类名失效,需要修改微调
run.sh里面注入的 JavaScript 选择器规则。