更新readme
This commit is contained in:
+12
-17
@@ -1,10 +1,3 @@
|
|||||||
> [!warning]
|
|
||||||
> 好像最近项目中用来请求每日热点新闻的api接口被ban了,可以自己部署一下[newsnow](https://github.com/ourongxing/newsnow),很快的可以一键部署,然后替换掉这个URL即可,最近一个月我也会commit一版更通用的解决方案。
|
|
||||||
> ```python
|
|
||||||
> #新闻API基础URL
|
|
||||||
> BASE URL = "https://newsnow.busiyi.world"
|
|
||||||
> ```
|
|
||||||
|
|
||||||
# MindSpider - 专为舆情分析设计的AI爬虫
|
# MindSpider - 专为舆情分析设计的AI爬虫
|
||||||
|
|
||||||
> 免责声明:
|
> 免责声明:
|
||||||
@@ -193,7 +186,7 @@ flowchart TB
|
|||||||
- 记录任务状态、进度、结果等
|
- 记录任务状态、进度、结果等
|
||||||
|
|
||||||
5. **平台内容表**(继承自MediaCrawler)
|
5. **平台内容表**(继承自MediaCrawler)
|
||||||
- xhs_note - 小红书笔记
|
- xhs_note - 小红书笔记(暂时废弃,详情查看:https://github.com/NanmiCoder/MediaCrawler/issues/754)
|
||||||
- douyin_aweme - 抖音视频
|
- douyin_aweme - 抖音视频
|
||||||
- kuaishou_video - 快手视频
|
- kuaishou_video - 快手视频
|
||||||
- bilibili_video - B站视频
|
- bilibili_video - B站视频
|
||||||
@@ -206,10 +199,11 @@ flowchart TB
|
|||||||
### 环境要求
|
### 环境要求
|
||||||
|
|
||||||
- Python 3.9 或更高版本
|
- Python 3.9 或更高版本
|
||||||
- MySQL 5.7 或更高版本
|
- MySQL 5.7 或更高版本,或 PostgreSQL
|
||||||
- Conda环境:pytorch_python11(推荐)
|
- Conda环境:pytorch_python11(推荐)
|
||||||
- 操作系统:Windows/Linux/macOS
|
- 操作系统:Windows/Linux/macOS
|
||||||
|
|
||||||
|
|
||||||
### 1. 克隆项目
|
### 1. 克隆项目
|
||||||
|
|
||||||
```bash
|
```bash
|
||||||
@@ -275,7 +269,7 @@ DB_PASSWORD = "your_password"
|
|||||||
DB_NAME = "mindspider"
|
DB_NAME = "mindspider"
|
||||||
DB_CHARSET = "utf8mb4"
|
DB_CHARSET = "utf8mb4"
|
||||||
|
|
||||||
# DeepSeek API密钥
|
# MINDSPIDER API密钥
|
||||||
MINDSPIDER_BASE_URL=your_api_base_url
|
MINDSPIDER_BASE_URL=your_api_base_url
|
||||||
MINDSPIDER_API_KEY=sk-your-key
|
MINDSPIDER_API_KEY=sk-your-key
|
||||||
MINDSPIDER_MODEL_NAME=deepseek-chat
|
MINDSPIDER_MODEL_NAME=deepseek-chat
|
||||||
@@ -286,9 +280,6 @@ MINDSPIDER_MODEL_NAME=deepseek-chat
|
|||||||
```bash
|
```bash
|
||||||
# 检查系统状态
|
# 检查系统状态
|
||||||
python main.py --status
|
python main.py --status
|
||||||
|
|
||||||
# 初始化数据库表
|
|
||||||
python main.py --setup
|
|
||||||
```
|
```
|
||||||
|
|
||||||
## 使用指南
|
## 使用指南
|
||||||
@@ -325,7 +316,7 @@ python main.py --broad-topic --date 2024-01-15
|
|||||||
|
|
||||||
**首次使用每个平台都需要登录,这是最关键的步骤:**
|
**首次使用每个平台都需要登录,这是最关键的步骤:**
|
||||||
|
|
||||||
1. **小红书登录**
|
1. **小红书登录**(暂时废弃,详情查看:https://github.com/NanmiCoder/MediaCrawler/issues/754)
|
||||||
```bash
|
```bash
|
||||||
# 测试小红书爬取(会弹出二维码)
|
# 测试小红书爬取(会弹出二维码)
|
||||||
python main.py --deep-sentiment --platforms xhs --test
|
python main.py --deep-sentiment --platforms xhs --test
|
||||||
@@ -369,6 +360,10 @@ python main.py --deep-sentiment --platforms zhihu --test
|
|||||||
3. **手动处理验证**:有些平台可能需要手动滑动验证码
|
3. **手动处理验证**:有些平台可能需要手动滑动验证码
|
||||||
4. **重新登录**:删除 `DeepSentimentCrawling/MediaCrawler/browser_data/` 目录重新登录
|
4. **重新登录**:删除 `DeepSentimentCrawling/MediaCrawler/browser_data/` 目录重新登录
|
||||||
|
|
||||||
|
### 其他问题
|
||||||
|
|
||||||
|
https://github.com/666ghj/BettaFish/issues/185
|
||||||
|
|
||||||
### 爬取参数调整
|
### 爬取参数调整
|
||||||
|
|
||||||
在实际使用前建议调整爬取参数:
|
在实际使用前建议调整爬取参数:
|
||||||
@@ -394,8 +389,8 @@ python main.py --deep-sentiment --date 2024-01-15
|
|||||||
|
|
||||||
#### 2. 指定平台爬取
|
#### 2. 指定平台爬取
|
||||||
```bash
|
```bash
|
||||||
# 只爬取小红书和抖音
|
# 只爬取B站和抖音
|
||||||
python main.py --deep-sentiment --platforms xhs dy --test
|
python main.py --deep-sentiment --platforms bili dy --test
|
||||||
|
|
||||||
# 爬取所有平台的特定数量内容
|
# 爬取所有平台的特定数量内容
|
||||||
python main.py --deep-sentiment --max-keywords 30 --max-notes 20
|
python main.py --deep-sentiment --max-keywords 30 --max-notes 20
|
||||||
@@ -405,7 +400,7 @@ python main.py --deep-sentiment --max-keywords 30 --max-notes 20
|
|||||||
|
|
||||||
```bash
|
```bash
|
||||||
--status # 检查项目状态
|
--status # 检查项目状态
|
||||||
--setup # 初始化项目
|
--setup # 初始化项目(废弃,已自动初始化)
|
||||||
--broad-topic # 话题提取
|
--broad-topic # 话题提取
|
||||||
--deep-sentiment # 爬虫模块
|
--deep-sentiment # 爬虫模块
|
||||||
--complete # 完整流程
|
--complete # 完整流程
|
||||||
|
|||||||
+2
-1
@@ -337,7 +337,7 @@ Recommended LLM API Provider: [Reasoning Era](https://aihubmix.com/?aff=8Ds9)
|
|||||||
```bash
|
```bash
|
||||||
# Local MySQL database initialization
|
# Local MySQL database initialization
|
||||||
cd MindSpider
|
cd MindSpider
|
||||||
# Project initialization
|
# Project initialization, deprecated, initialization is now automatic.
|
||||||
python main.py --setup
|
python main.py --setup
|
||||||
|
|
||||||
```
|
```
|
||||||
@@ -667,6 +667,7 @@ This project is licensed under the [GPL-2.0 License](LICENSE). Please see the LI
|
|||||||
### Get Help
|
### Get Help
|
||||||
|
|
||||||
- **Project Homepage**: [GitHub Repository](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem)
|
- **Project Homepage**: [GitHub Repository](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem)
|
||||||
|
- **FAQ**: [Frequently Asked Questions](https://github.com/666ghj/BettaFish/issues/185)
|
||||||
- **Issue Reporting**: [Issues Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues)
|
- **Issue Reporting**: [Issues Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues)
|
||||||
- **Feature Requests**: [Discussions Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions)
|
- **Feature Requests**: [Discussions Page](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions)
|
||||||
|
|
||||||
|
|||||||
@@ -337,7 +337,7 @@ INSIGHT_ENGINE_MODEL_NAME=
|
|||||||
```bash
|
```bash
|
||||||
# 本地MySQL数据库初始化
|
# 本地MySQL数据库初始化
|
||||||
cd MindSpider
|
cd MindSpider
|
||||||
# 项目初始化
|
# 项目初始化(废弃,已自动初始化)
|
||||||
python main.py --setup
|
python main.py --setup
|
||||||
|
|
||||||
```
|
```
|
||||||
@@ -665,6 +665,7 @@ class DeepSearchAgent:
|
|||||||
### 获取帮助
|
### 获取帮助
|
||||||
|
|
||||||
- **项目主页**:[GitHub仓库](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem)
|
- **项目主页**:[GitHub仓库](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem)
|
||||||
|
- **常见问题解答**:[FAQ](https://github.com/666ghj/BettaFish/issues/185)
|
||||||
- **问题反馈**:[Issues页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues)
|
- **问题反馈**:[Issues页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/issues)
|
||||||
- **功能建议**:[Discussions页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions)
|
- **功能建议**:[Discussions页面](https://github.com/666ghj/Weibo_PublicOpinion_AnalysisSystem/discussions)
|
||||||
|
|
||||||
|
|||||||
Reference in New Issue
Block a user