9d78a49625
- 新增config.py统一读取.env配置,移除硬编码路径和参数 - 重构collect_jrxml.py支持命令行参数和环境变量配置源目录 - 新增.env.example示例配置文件,整理所有可配置项 - 重构down_embedding_model.py、import_to_chroma.py等所有脚本使用统一配置 - 新增Windows一键部署脚本setup.bat - 修正jrxml_banch_chunker.py的文件名拼写错误
54 lines
1.7 KiB
Bash
54 lines
1.7 KiB
Bash
# ============================================================
|
|
# JRXML RAG 项目 - 环境配置文件
|
|
# 复制此文件为 .env 并根据需要修改配置
|
|
# ============================================================
|
|
|
|
# -------------------- 嵌入模型配置 --------------------
|
|
# 模型名称或路径,支持以下格式:
|
|
# 1. HuggingFace Hub 模型: Qwen/Qwen3-Embedding-4B
|
|
# 2. HuggingFace Hub 模型: sentence-transformers/all-MiniLM-L6-v2
|
|
# 3. 本地模型路径: models/Qwen3-Embedding-4B
|
|
EMBEDDING_MODEL_NAME=Qwen/Qwen3-Embedding-4B
|
|
|
|
# 本地模型下载/存放目录(使用 Hub 模型时会自动下载到此目录)
|
|
EMBEDDING_MODEL_PATH=models/Qwen3-Embedding-4B
|
|
|
|
# HuggingFace 镜像站点(国内用户建议使用镜像加速)
|
|
HF_ENDPOINT=https://hf-mirror.com
|
|
|
|
# -------------------- 硬件配置 --------------------
|
|
# 是否使用 GPU 加速 (true/false)
|
|
USE_GPU=true
|
|
|
|
# 是否启用 FP16 半精度(可节省约 50% 显存)
|
|
USE_FP16=true
|
|
|
|
# 向量化批处理大小(根据显存调整,显存不足时减小此值)
|
|
BATCH_SIZE=64
|
|
|
|
# -------------------- 目录配置 --------------------
|
|
# JRXML 源文件目录
|
|
JRXML_SOURCE_DIR=jrxml_source
|
|
|
|
# 分块输出目录
|
|
CHUNKER_OUTPUT_DIR=jrxml_chunker_output
|
|
|
|
# 向量输出目录
|
|
EMBEDDINGS_DIR=embeddings
|
|
|
|
# Chroma 向量数据库目录
|
|
CHROMA_DB_PATH=chroma_db
|
|
|
|
# Chroma 集合名称
|
|
CHROMA_COLLECTION_NAME=jrxml_chunks
|
|
|
|
# -------------------- 分块配置 --------------------
|
|
# 单个 chunk 最大字符数
|
|
MAX_CHUNK_SIZE=2000
|
|
|
|
# -------------------- 查询配置 --------------------
|
|
# 默认返回结果数
|
|
DEFAULT_N_RESULTS=5
|
|
|
|
# 相似度阈值 (0~1,余弦距离,越小越相似)
|
|
SIMILARITY_THRESHOLD=0.3 |