Uploading the AI Crawler System: MindSpider

This commit is contained in:
戒酒的李白
2025-08-27 13:49:07 +08:00
parent 822bad557f
commit 587e709e82
174 changed files with 34562 additions and 25 deletions
@@ -0,0 +1,12 @@
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
# 1. 不得用于任何商业用途。
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
# 3. 不得进行大规模爬取或对平台造成运营干扰。
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
# 5. 不得用于任何非法或不当的用途。
#
# 详细许可条款请参阅项目根目录下的LICENSE文件。
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
# -*- coding: utf-8 -*-
@@ -0,0 +1,50 @@
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
# 1. 不得用于任何商业用途。
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
# 3. 不得进行大规模爬取或对平台造成运营干扰。
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
# 5. 不得用于任何非法或不当的用途。
#
# 详细许可条款请参阅项目根目录下的LICENSE文件。
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
# -*- coding: utf-8 -*-
# @Author : relakkes@gmail.com
# @Name : 程序员阿江-Relakkes
# @Time : 2024/6/2 10:35
# @Desc :
import time
import unittest
from cache.local_cache import ExpiringLocalCache
class TestExpiringLocalCache(unittest.TestCase):
def setUp(self):
self.cache = ExpiringLocalCache(cron_interval=10)
def test_set_and_get(self):
self.cache.set('key', 'value', 10)
self.assertEqual(self.cache.get('key'), 'value')
def test_expired_key(self):
self.cache.set('key', 'value', 1)
time.sleep(2) # wait for the key to expire
self.assertIsNone(self.cache.get('key'))
def test_clear(self):
# 设置两个键值对,过期时间为11秒
self.cache.set('key', 'value', 11)
# 睡眠12秒,让cache类的定时任务执行一次
time.sleep(12)
self.assertIsNone(self.cache.get('key'))
def tearDown(self):
del self.cache
if __name__ == '__main__':
unittest.main()
@@ -0,0 +1,30 @@
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
# 1. 不得用于任何商业用途。
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
# 3. 不得进行大规模爬取或对平台造成运营干扰。
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
# 5. 不得用于任何非法或不当的用途。
#
# 详细许可条款请参阅项目根目录下的LICENSE文件。
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
# -*- coding: utf-8 -*-
# @Author : relakkes@gmail.com
# @Time : 2023/12/2 14:42
# @Desc :
from unittest import IsolatedAsyncioTestCase
from proxy.proxy_ip_pool import create_ip_pool
from proxy.types import IpInfoModel
class TestIpPool(IsolatedAsyncioTestCase):
async def test_ip_pool(self):
pool = await create_ip_pool(ip_pool_count=1, enable_validate_ip=True)
print("\n")
for i in range(3):
ip_proxy_info: IpInfoModel = await pool.get_proxy()
print(ip_proxy_info)
self.assertIsNotNone(ip_proxy_info.ip, msg="验证 ip 是否获取成功")
@@ -0,0 +1,51 @@
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
# 1. 不得用于任何商业用途。
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
# 3. 不得进行大规模爬取或对平台造成运营干扰。
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
# 5. 不得用于任何非法或不当的用途。
#
# 详细许可条款请参阅项目根目录下的LICENSE文件。
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
# -*- coding: utf-8 -*-
# @Author : relakkes@gmail.com
# @Name : 程序员阿江-Relakkes
# @Time : 2024/6/2 19:54
# @Desc :
import time
import unittest
from cache.redis_cache import RedisCache
class TestRedisCache(unittest.TestCase):
def setUp(self):
self.redis_cache = RedisCache()
def test_set_and_get(self):
self.redis_cache.set('key', 'value', 10)
self.assertEqual(self.redis_cache.get('key'), 'value')
def test_expired_key(self):
self.redis_cache.set('key', 'value', 1)
time.sleep(2) # wait for the key to expire
self.assertIsNone(self.redis_cache.get('key'))
def test_keys(self):
self.redis_cache.set('key1', 'value1', 10)
self.redis_cache.set('key2', 'value2', 10)
keys = self.redis_cache.keys('*')
self.assertIn('key1', keys)
self.assertIn('key2', keys)
def tearDown(self):
# self.redis_cache._redis_client.flushdb() # 清空redis数据库
pass
if __name__ == '__main__':
unittest.main()
@@ -0,0 +1,21 @@
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
# 1. 不得用于任何商业用途。
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
# 3. 不得进行大规模爬取或对平台造成运营干扰。
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
# 5. 不得用于任何非法或不当的用途。
#
# 详细许可条款请参阅项目根目录下的LICENSE文件。
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
# -*- coding: utf-8 -*-
from tools import utils
def test_convert_cookies():
xhs_cookies = "a1=x000101360; webId=1190c4d3cxxxx125xxx; "
cookie_dict = utils.convert_str_cookie_to_dict(xhs_cookies)
assert cookie_dict.get("webId") == "1190c4d3cxxxx125xxx"
assert cookie_dict.get("a1") == "x000101360"