构建可扩展的预处理流水线

全新 · 开源

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Apache Spark Documentation, Apache Spark Community, 2024 (Apache Software Foundation) - Apache Spark的官方文档，提供了关于其架构、API（包括PySpark DataFrames）、分布式数据处理和优化技术的全面指南，对于构建可扩展的管道非常有用。
Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, and Jeffrey D. Ullman, 2020 (Cambridge University Press) - 一本被广泛引用的教科书章节，解释了局部敏感哈希（LSH）和MinHash的理论基础和实际应用，用于在大型数据集中高效检测近似重复项，这是数据去重的一项核心技术。
Dask Documentation, Dask Developers, 2024 (Coiled) - Dask的官方文档，涵盖了其DataFrame API、分布式计算功能以及与Python生态系统的集成，对于设计可扩展的数据预处理工作流程很有价值。