MediaCrawler 是由 NanmiCoder 打造的中英文双平台全民爬虫项目,目前在 GitHub 拥有约 27.7k Star,获得了大量开发者、运营者的认可。
它支持关键词/指定ID爬取、二级评论、登录态缓存、IP代理池、评论词云生成等核心功能,通过 Playwright 实现"模拟真实浏览器",无需复杂逆向即可稳定采集。
无需复杂逆向
通过浏览器模拟绕过限制
小红书、抖音、快手、B站、微博、知乎、贴吧等主流平台全覆盖
支持二维码和 Cookie 登录,并缓存登录态,免频繁重复登录
全面支持搜索关键词、指定视频/帖 ID 采集两种模式
包含一级、二级评论,保证沟通链路完整,获取全面反馈
集成 IP 池和验证码智能跳过机制,提高采集稳定性
一键输出可视化词云图,直观展示评论关键词分布(需额外脚本)
模块 | 开源版 | Pro版 |
---|---|---|
登录方式 | QR + Cookie,登录态缓存 | 多账号支持,断点续爬 |
签名获取 | 浏览器 JS 注入,无需逆向 | 完全剥离 JS 依赖,纯后端可用 |
爬虫稳定性 | 通用,多平台命令行使用 | 支持 Linux 守护、IP 池、验证码绕过 |
数据处理 | 支持 CSV/JSON/SQLite 或 MySQL 等 | 附加词云图功能,未来接入 AI 分析模块 |
批量爬取竞品视频/评论词云,支持调研方向热点,洞察用户偏好
采集评论做情绪、关键词分析,量化用户反馈,支持商业决策
获取垂类社交数据,帮助舆情研判,支持社会科学领域的实证研究
实时抓取营销活动评论,评估传播效果,及时调整营销策略
收藏或备份视频、图文等内容资产,建立个人或企业知识库
实时跟踪品牌相关评论,及时发现并处理负面舆情,维护品牌形象
项目名称 | 多平台支持 | 登录方式 | 评论深度 | 签名逆向 | 可视化 | 是否开源 |
---|---|---|---|---|---|---|
MediaCrawler | 支持7+平台 | QR、Cookie 缓存 | 一级+二级评论 | 浏览器 JS 注入 | 词云生成 | 免费开源 |
knaiskes/mediaCrawler | 多社交平台 | Token 手动填 | 无可视化 | 需自己配置 | 无词云 | 开源 |
kirbystudy/MediaCrawler | 视频图片下载 | 自填 Cookie | 无评论支持 | 简单 JS | 无 | 开源 |
专有爬虫工具(商业) | 通用 | 企业登录集成 | 深度采集 | 完备逆向 | BI 报表 | 付费闭源 |
安装 Python 3.8+
确保系统已安装Python环境
安装 Git
用于克隆项目仓库
网络环境
部分平台可能需要特殊网络环境