MediaCrawler - GitHub爆款爬虫工具

GitHub 爆款工具 MediaCrawler 零门槛采集社交评论轻松爬取抖音、小红书、B站等社交平台评论，30K+ Star 背后的场景实战揭秘查看 GitHub 项目快速开始

0 GitHub Stars

多平台支持

开源免费

项目简介一个多平台通吃的社交媒体数据爬虫工具，轻松获取各平台内容，真正低门槛、战力强大

MediaCrawler 是由 NanmiCoder 打造的中英文双平台全民爬虫项目，目前在 GitHub 拥有约 27.7k Star，获得了大量开发者、运营者的认可。

它支持关键词/指定ID爬取、二级评论、登录态缓存、IP代理池、评论词云生成等核心功能，通过 Playwright 实现"模拟真实浏览器"，无需复杂逆向即可稳定采集。

痛点场景

平台频繁部署防爬机制，JS逆向成本高
内容多平台分散且结构不一，爬取逻辑重复
批量采集需登录态和代理池配合，手动登录耗时
缺少数据可视化，光存 raw JSON，不直观

无需复杂逆向

通过浏览器模拟绕过限制

核心功能全面覆盖主流社交平台，提供完整的数据采集与处理解决方案

多平台支持

小红书、抖音、快手、B站、微博、知乎、贴吧等主流平台全覆盖

多种登录方式

支持二维码和 Cookie 登录，并缓存登录态，免频繁重复登录

双模式爬取

全面支持搜索关键词、指定视频/帖 ID 采集两种模式

深度评论采集

包含一级、二级评论，保证沟通链路完整，获取全面反馈

自动代理处理

集成 IP 池和验证码智能跳过机制，提高采集稳定性

评论词云生成

一键输出可视化词云图，直观展示评论关键词分布（需额外脚本）

技术优势对比

模块	开源版	Pro版
登录方式	QR + Cookie，登录态缓存	多账号支持，断点续爬
签名获取	浏览器 JS 注入，无需逆向	完全剥离 JS 依赖，纯后端可用
爬虫稳定性	通用，多平台命令行使用	支持 Linux 守护、IP 池、验证码绕过
数据处理	支持 CSV/JSON/SQLite 或 MySQL 等	附加词云图功能，未来接入 AI 分析模块

使用场景举例适用于多种业务场景，帮助企业和个人高效获取社交平台数据

内容运营

批量爬取竞品视频/评论词云，支持调研方向热点，洞察用户偏好

数据分析

采集评论做情绪、关键词分析，量化用户反馈，支持商业决策

学术研究

获取垂类社交数据，帮助舆情研判，支持社会科学领域的实证研究

市场监测

实时抓取营销活动评论，评估传播效果，及时调整营销策略

自动存档

收藏或备份视频、图文等内容资产，建立个人或企业知识库

舆情监控

实时跟踪品牌相关评论，及时发现并处理负面舆情，维护品牌形象

与同类项目对比优势 MediaCrawler 在多维度展现出显著优势，是社交数据采集的理想选择

项目名称	多平台支持	登录方式	评论深度	签名逆向	可视化	是否开源
MediaCrawler	支持7+平台	QR、Cookie 缓存	一级+二级评论	浏览器 JS 注入	词云生成	免费开源
knaiskes/mediaCrawler	多社交平台	Token 手动填	无可视化	需自己配置	无词云	开源
kirbystudy/MediaCrawler	视频图片下载	自填 Cookie	无评论支持	简单 JS	无	开源
专有爬虫工具（商业）	通用	企业登录集成	深度采集	完备逆向	BI 报表	付费闭源

部署使用示范步骤简单几步即可开始使用，快速上手社交媒体数据采集

准备工作

1

安装 Python 3.8+

确保系统已安装Python环境
2

安装 Git

用于克隆项目仓库
3

网络环境

部分平台可能需要特殊网络环境

注意事项

请遵守各平台的使用条款，合理爬取数据
频繁爬取可能导致账号限制，请控制频率

终端命令

# 克隆项目并进入目录

git clone https://github.com/NanmiCoder/MediaCrawler.git

cd MediaCrawler

# 创建虚拟环境并安装依赖

python -m venv venv

source venv/bin/activate # Windows 用 venv\Scripts\activate

pip install -r requirements.txt

playwright install

# 登录平台（以小红书为例）

python main.py --platform xhs --lt qrcode --type search

# 输入关键词，自动爬取内容并保存到 data/ 或数据库

# 根据提示输入搜索关键词，程序将自动开始采集

# 生成评论词云（需依赖额外脚本处理）

python scripts/generate_wordcloud.py --input data/comments.json

项目地址

https://github.com/NanmiCoder/MediaCrawler

获取帮助

查看项目 Issues 或提交问题

痛点场景

多平台支持

多种登录方式

双模式爬取

深度评论采集

自动代理处理

评论词云生成

更多高级功能

技术优势对比

内容运营

数据分析

学术研究

市场监测

自动存档

舆情监控

准备工作

注意事项

项目地址

获取帮助

问题反馈

痛点场景

多平台支持

多种登录方式

双模式爬取

深度评论采集

自动代理处理

评论词云生成

更多高级功能

技术优势对比

内容运营

数据分析

学术研究

市场监测

自动存档

舆情监控

准备工作

注意事项

项目地址

获取帮助

问题反馈

一键分享到这些平台