feat: 添加Markdown分块器与统一批量分块入口,支持增量向量化与导入
- 新增 md_chunker.py: Markdown语义分块引擎,支持标题/代码块/表格智能拆分 - 新增 batch_chunker.py: 统一批量分块入口,支持JRXML+Markdown混合处理 - 新增 requirements.txt: 整理项目依赖 - embed_chunks.py: 新增 --incremental 增量模式,追加新向量到已有数据 - import_to_chroma.py: 新增 --incremental 增量模式,不再每次清空数据库 - 更新 README.md 与 docs/file_guide.md 反映最新架构 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
This commit is contained in:
@@ -0,0 +1,10 @@
|
||||
# Core dependencies
|
||||
torch>=2.0.0
|
||||
sentence-transformers>=2.2.0
|
||||
chromadb>=0.4.0
|
||||
numpy>=1.24.0
|
||||
tqdm>=4.65.0
|
||||
huggingface_hub>=0.19.0
|
||||
|
||||
# Optional - for LangChain document conversion
|
||||
langchain>=0.1.0
|
||||
Reference in New Issue
Block a user