Skip to content

模块概览

Omelette 由八个核心模块组成科研文献流水线。

#模块说明
1关键词管理三级层级、LLM 扩展、检索公式生成
2文献检索联邦检索 Semantic Scholar、OpenAlex、arXiv、Crossref
3去重过滤DOI 硬去重、标题相似度、LLM 校验
4增量订阅RSS 与 API 定时更新
5PDF 爬取Unpaywall、arXiv、直链回退
6OCR 解析pdfplumber + PaddleOCR 扫描版
7RAG 知识库ChromaDB 向量、混合检索、带引用回答
8写作辅助摘要、引用、综述提纲、缺口分析

流水线

Keywords → Search → Dedup → Subscription → Crawler → OCR → RAG → Writing

各模块可独立使用或串联。项目组织文献,关键词驱动检索,结果经去重、爬取、OCR、索引后供写作辅助查询。

Released under the MIT License.