Uploading the AI Crawler System: MindSpider
This commit is contained in:
@@ -0,0 +1,12 @@
|
||||
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
|
||||
# 1. 不得用于任何商业用途。
|
||||
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
|
||||
# 3. 不得进行大规模爬取或对平台造成运营干扰。
|
||||
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
|
||||
# 5. 不得用于任何非法或不当的用途。
|
||||
#
|
||||
# 详细许可条款请参阅项目根目录下的LICENSE文件。
|
||||
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
|
||||
|
||||
|
||||
# -*- coding: utf-8 -*-
|
||||
@@ -0,0 +1,50 @@
|
||||
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
|
||||
# 1. 不得用于任何商业用途。
|
||||
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
|
||||
# 3. 不得进行大规模爬取或对平台造成运营干扰。
|
||||
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
|
||||
# 5. 不得用于任何非法或不当的用途。
|
||||
#
|
||||
# 详细许可条款请参阅项目根目录下的LICENSE文件。
|
||||
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
|
||||
|
||||
|
||||
# -*- coding: utf-8 -*-
|
||||
# @Author : relakkes@gmail.com
|
||||
# @Name : 程序员阿江-Relakkes
|
||||
# @Time : 2024/6/2 10:35
|
||||
# @Desc :
|
||||
|
||||
import time
|
||||
import unittest
|
||||
|
||||
from cache.local_cache import ExpiringLocalCache
|
||||
|
||||
|
||||
class TestExpiringLocalCache(unittest.TestCase):
|
||||
|
||||
def setUp(self):
|
||||
self.cache = ExpiringLocalCache(cron_interval=10)
|
||||
|
||||
def test_set_and_get(self):
|
||||
self.cache.set('key', 'value', 10)
|
||||
self.assertEqual(self.cache.get('key'), 'value')
|
||||
|
||||
def test_expired_key(self):
|
||||
self.cache.set('key', 'value', 1)
|
||||
time.sleep(2) # wait for the key to expire
|
||||
self.assertIsNone(self.cache.get('key'))
|
||||
|
||||
def test_clear(self):
|
||||
# 设置两个键值对,过期时间为11秒
|
||||
self.cache.set('key', 'value', 11)
|
||||
# 睡眠12秒,让cache类的定时任务执行一次
|
||||
time.sleep(12)
|
||||
self.assertIsNone(self.cache.get('key'))
|
||||
|
||||
def tearDown(self):
|
||||
del self.cache
|
||||
|
||||
|
||||
if __name__ == '__main__':
|
||||
unittest.main()
|
||||
@@ -0,0 +1,30 @@
|
||||
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
|
||||
# 1. 不得用于任何商业用途。
|
||||
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
|
||||
# 3. 不得进行大规模爬取或对平台造成运营干扰。
|
||||
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
|
||||
# 5. 不得用于任何非法或不当的用途。
|
||||
#
|
||||
# 详细许可条款请参阅项目根目录下的LICENSE文件。
|
||||
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
|
||||
|
||||
|
||||
# -*- coding: utf-8 -*-
|
||||
# @Author : relakkes@gmail.com
|
||||
# @Time : 2023/12/2 14:42
|
||||
# @Desc :
|
||||
from unittest import IsolatedAsyncioTestCase
|
||||
|
||||
from proxy.proxy_ip_pool import create_ip_pool
|
||||
from proxy.types import IpInfoModel
|
||||
|
||||
|
||||
class TestIpPool(IsolatedAsyncioTestCase):
|
||||
async def test_ip_pool(self):
|
||||
pool = await create_ip_pool(ip_pool_count=1, enable_validate_ip=True)
|
||||
print("\n")
|
||||
for i in range(3):
|
||||
ip_proxy_info: IpInfoModel = await pool.get_proxy()
|
||||
print(ip_proxy_info)
|
||||
self.assertIsNotNone(ip_proxy_info.ip, msg="验证 ip 是否获取成功")
|
||||
|
||||
@@ -0,0 +1,51 @@
|
||||
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
|
||||
# 1. 不得用于任何商业用途。
|
||||
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
|
||||
# 3. 不得进行大规模爬取或对平台造成运营干扰。
|
||||
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
|
||||
# 5. 不得用于任何非法或不当的用途。
|
||||
#
|
||||
# 详细许可条款请参阅项目根目录下的LICENSE文件。
|
||||
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
|
||||
|
||||
|
||||
# -*- coding: utf-8 -*-
|
||||
# @Author : relakkes@gmail.com
|
||||
# @Name : 程序员阿江-Relakkes
|
||||
# @Time : 2024/6/2 19:54
|
||||
# @Desc :
|
||||
|
||||
import time
|
||||
import unittest
|
||||
|
||||
from cache.redis_cache import RedisCache
|
||||
|
||||
|
||||
class TestRedisCache(unittest.TestCase):
|
||||
|
||||
def setUp(self):
|
||||
self.redis_cache = RedisCache()
|
||||
|
||||
def test_set_and_get(self):
|
||||
self.redis_cache.set('key', 'value', 10)
|
||||
self.assertEqual(self.redis_cache.get('key'), 'value')
|
||||
|
||||
def test_expired_key(self):
|
||||
self.redis_cache.set('key', 'value', 1)
|
||||
time.sleep(2) # wait for the key to expire
|
||||
self.assertIsNone(self.redis_cache.get('key'))
|
||||
|
||||
def test_keys(self):
|
||||
self.redis_cache.set('key1', 'value1', 10)
|
||||
self.redis_cache.set('key2', 'value2', 10)
|
||||
keys = self.redis_cache.keys('*')
|
||||
self.assertIn('key1', keys)
|
||||
self.assertIn('key2', keys)
|
||||
|
||||
def tearDown(self):
|
||||
# self.redis_cache._redis_client.flushdb() # 清空redis数据库
|
||||
pass
|
||||
|
||||
|
||||
if __name__ == '__main__':
|
||||
unittest.main()
|
||||
@@ -0,0 +1,21 @@
|
||||
# 声明:本代码仅供学习和研究目的使用。使用者应遵守以下原则:
|
||||
# 1. 不得用于任何商业用途。
|
||||
# 2. 使用时应遵守目标平台的使用条款和robots.txt规则。
|
||||
# 3. 不得进行大规模爬取或对平台造成运营干扰。
|
||||
# 4. 应合理控制请求频率,避免给目标平台带来不必要的负担。
|
||||
# 5. 不得用于任何非法或不当的用途。
|
||||
#
|
||||
# 详细许可条款请参阅项目根目录下的LICENSE文件。
|
||||
# 使用本代码即表示您同意遵守上述原则和LICENSE中的所有条款。
|
||||
|
||||
|
||||
# -*- coding: utf-8 -*-
|
||||
|
||||
from tools import utils
|
||||
|
||||
|
||||
def test_convert_cookies():
|
||||
xhs_cookies = "a1=x000101360; webId=1190c4d3cxxxx125xxx; "
|
||||
cookie_dict = utils.convert_str_cookie_to_dict(xhs_cookies)
|
||||
assert cookie_dict.get("webId") == "1190c4d3cxxxx125xxx"
|
||||
assert cookie_dict.get("a1") == "x000101360"
|
||||
Reference in New Issue
Block a user