MediaCrawler - GitHub爆款爬虫工具
GitHub 爆款工具 MediaCrawler 零门槛采集社交评论 轻松爬取抖音、小红书、B站等社交平台评论,30K+ Star 背后的场景实战揭秘 查看 GitHub 项目 快速开始
0 GitHub Stars
多平台支持
开源免费
MediaCrawler 多平台爬取演示
项目简介 一个多平台通吃的社交媒体数据爬虫工具,轻松获取各平台内容,真正低门槛、战力强大

MediaCrawler 是由 NanmiCoder 打造的中英文双平台全民爬虫项目,目前在 GitHub 拥有约 27.7k Star,获得了大量开发者、运营者的认可。

它支持关键词/指定ID爬取、二级评论、登录态缓存、IP代理池、评论词云生成等核心功能,通过 Playwright 实现"模拟真实浏览器",无需复杂逆向即可稳定采集。

痛点场景

  • 平台频繁部署防爬机制,JS逆向成本高
  • 内容多平台分散且结构不一,爬取逻辑重复
  • 批量采集需登录态和代理池配合,手动登录耗时
  • 缺少数据可视化,光存 raw JSON,不直观
MediaCrawler 功能展示

无需复杂逆向

通过浏览器模拟绕过限制

核心功能 全面覆盖主流社交平台,提供完整的数据采集与处理解决方案

多平台支持

小红书、抖音、快手、B站、微博、知乎、贴吧等主流平台全覆盖

多种登录方式

支持二维码和 Cookie 登录,并缓存登录态,免频繁重复登录

双模式爬取

全面支持搜索关键词、指定视频/帖 ID 采集两种模式

深度评论采集

包含一级、二级评论,保证沟通链路完整,获取全面反馈

自动代理处理

集成 IP 池和验证码智能跳过机制,提高采集稳定性

评论词云生成

一键输出可视化词云图,直观展示评论关键词分布(需额外脚本)

更多高级功能

数据输出多样化:支持 CSV/JSON/关系型数据库存储
断点续爬:支持任务中断后从上次位置继续
多账号支持:Pro版支持多账号轮换采集
企业级部署:支持Linux守护进程、IP池管理
技术架构与版本对比 基于现代技术栈构建,提供开源版和Pro付费版满足不同需求
MediaCrawler 技术架构图

技术优势对比

模块 开源版 Pro版
登录方式 QR + Cookie,登录态缓存 多账号支持,断点续爬
签名获取 浏览器 JS 注入,无需逆向 完全剥离 JS 依赖,纯后端可用
爬虫稳定性 通用,多平台命令行使用 支持 Linux 守护、IP 池、验证码绕过
数据处理 支持 CSV/JSON/SQLite 或 MySQL 等 附加词云图功能,未来接入 AI 分析模块
使用场景举例 适用于多种业务场景,帮助企业和个人高效获取社交平台数据

内容运营

批量爬取竞品视频/评论词云,支持调研方向热点,洞察用户偏好

数据分析

采集评论做情绪、关键词分析,量化用户反馈,支持商业决策

学术研究

获取垂类社交数据,帮助舆情研判,支持社会科学领域的实证研究

市场监测

实时抓取营销活动评论,评估传播效果,及时调整营销策略

自动存档

收藏或备份视频、图文等内容资产,建立个人或企业知识库

舆情监控

实时跟踪品牌相关评论,及时发现并处理负面舆情,维护品牌形象

与同类项目对比优势 MediaCrawler 在多维度展现出显著优势,是社交数据采集的理想选择
项目名称 多平台支持 登录方式 评论深度 签名逆向 可视化 是否开源
MediaCrawler 支持7+平台 QR、Cookie 缓存 一级+二级评论 浏览器 JS 注入 词云生成 免费开源
knaiskes/mediaCrawler 多社交平台 Token 手动填 无可视化 需自己配置 无词云 开源
kirbystudy/MediaCrawler 视频图片下载 自填 Cookie 无评论支持 简单 JS 开源
专有爬虫工具(商业) 通用 企业登录集成 深度采集 完备逆向 BI 报表 付费闭源
部署使用示范步骤 简单几步即可开始使用,快速上手社交媒体数据采集

准备工作

  • 1

    安装 Python 3.8+

    确保系统已安装Python环境

  • 2

    安装 Git

    用于克隆项目仓库

  • 3

    网络环境

    部分平台可能需要特殊网络环境

注意事项

  • 请遵守各平台的使用条款,合理爬取数据
  • 频繁爬取可能导致账号限制,请控制频率
终端命令
# 克隆项目并进入目录
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
# 创建虚拟环境并安装依赖
python -m venv venv
source venv/bin/activate # Windows 用 venv\Scripts\activate
pip install -r requirements.txt
playwright install
# 登录平台(以小红书为例)
python main.py --platform xhs --lt qrcode --type search
# 输入关键词,自动爬取内容并保存到 data/ 或数据库
# 根据提示输入搜索关键词,程序将自动开始采集
# 生成评论词云(需依赖额外脚本处理)
python scripts/generate_wordcloud.py --input data/comments.json
开始使用 MediaCrawler MediaCrawler 以其成熟稳定、功能全面、易用性强的特性,成为社交媒体采集工具中的佼佼者。不论你是运营灵感收集、自媒体从业者,还是数据分析师,都能在这个项目中找到极强价值。 Star 并克隆项目 查看文档与帮助
问题反馈