refactor: 重构项目配置管理，统一使用.env配置

- 新增config.py统一读取.env配置，移除硬编码路径和参数 - 重构collect_jrxml.py支持命令行参数和环境变量配置源目录 - 新增.env.example示例配置文件，整理所有可配置项 - 重构down_embedding_model.py、import_to_chroma.py等所有脚本使用统一配置 - 新增Windows一键部署脚本setup.bat - 修正jrxml_banch_chunker.py的文件名拼写错误
2026-05-12 08:29:17 +08:00
parent bd98486de0
commit 9d78a49625
9 changed files with 396 additions and 67 deletions
@@ -0,0 +1,54 @@
+# ============================================================
+# JRXML RAG 项目 - 环境配置文件
+# 复制此文件为 .env 并根据需要修改配置
+# ============================================================
+
+# -------------------- 嵌入模型配置 --------------------
+# 模型名称或路径，支持以下格式：
+#   1. HuggingFace Hub 模型: Qwen/Qwen3-Embedding-4B
+#   2. HuggingFace Hub 模型: sentence-transformers/all-MiniLM-L6-v2
+#   3. 本地模型路径: models/Qwen3-Embedding-4B
+EMBEDDING_MODEL_NAME=Qwen/Qwen3-Embedding-4B
+
+# 本地模型下载/存放目录（使用 Hub 模型时会自动下载到此目录）
+EMBEDDING_MODEL_PATH=models/Qwen3-Embedding-4B
+
+# HuggingFace 镜像站点（国内用户建议使用镜像加速）
+HF_ENDPOINT=https://hf-mirror.com
+
+# -------------------- 硬件配置 --------------------
+# 是否使用 GPU 加速 (true/false)
+USE_GPU=true
+
+# 是否启用 FP16 半精度（可节省约 50% 显存）
+USE_FP16=true
+
+# 向量化批处理大小（根据显存调整，显存不足时减小此值）
+BATCH_SIZE=64
+
+# -------------------- 目录配置 --------------------
+# JRXML 源文件目录
+JRXML_SOURCE_DIR=jrxml_source
+
+# 分块输出目录
+CHUNKER_OUTPUT_DIR=jrxml_chunker_output
+
+# 向量输出目录
+EMBEDDINGS_DIR=embeddings
+
+# Chroma 向量数据库目录
+CHROMA_DB_PATH=chroma_db
+
+# Chroma 集合名称
+CHROMA_COLLECTION_NAME=jrxml_chunks
+
+# -------------------- 分块配置 --------------------
+# 单个 chunk 最大字符数
+MAX_CHUNK_SIZE=2000
+
+# -------------------- 查询配置 --------------------
+# 默认返回结果数
+DEFAULT_N_RESULTS=5
+
+# 相似度阈值 (0~1，余弦距离，越小越相似)
+SIMILARITY_THRESHOLD=0.3