系统可用性
人力成本降低
自动化所作为中国科学院的重要组成部分,在人工智能、模式识别、自动化控制等领域具有国际领先的技术实力。面对日益严峻的学术诚信挑战,自动化所承担起了推动科研领域诚信建设的重要使命,致力于通过技术创新来维护学术生态的健康发展。在构建科研论文学术不端主动监测平台的过程中,自动化所面临着多重复杂的技术挑战,这些挑战不仅来自于业务需求的复杂性,更来自于技术实现的高难度要求。
平台需要实现"反抄袭、反剽窃、反生成、反篡改"四个维度的学术不端检测,涵盖从文本级到语义级再到图像级的全方位监测能力。这种多维度的检测需求要求系统能够同时处理文本、图像、语义等多种类型的数据,对存储和检索系统提出了极高的性能要求。同时,面对 SCI 学术期刊的海量论文数据,需要构建能够支撑大规模数据存储、高效检索和实时分析的技术架构。
平台基于多模态、多类型及多协同学术诚信大模型进行建设,具有"反抄袭-反剽窃-反生成"的能力。整个平台分为门户端和管理端:门户端提供用户登录注册、论文检测和个人中心等功能,方便用户操作和查看信息;管理端则包括系统设置、论文检测、特征库管理、专家送审、资讯管理等能力,用于系统管理、数据分析和监控。
针对复杂的业务需求,平台采用了多种专业的数据库,并且发挥了它们的独特优势。Qdrant 向量数据库作为高性能向量存储解决方案,专为处理高维向量数据而设计。平台利用其强大的向量存储与相似性搜索能力,支持高维稠密向量的存储和快速检索,为文本和图像的语义相似性比较提供了技术基础。Elasticsearch 基于 Lucene 构建的分布式搜索引擎,为平台提供强大的全文搜索、分词、聚合分析等能力,其高效的查询性能和丰富的分析功能,能够满足海量科研论文的复杂检索需求。PostgreSQL 作为最先进的关系型数据库,负责存储论文的元数据信息(标题、作者、出版时间、摘要等结构化信息),它的 JSON 数据类型也较好满足了半结构化数据的存储需求。
面对 Qdrant、Elasticsearch、PostgreSQL 等多种专业数据库的运维负担,自动化所选择了 KubeBlocks 作为统一的数据库管理平台。普通情况下,运维团队需要掌握每种数据库独特的运维技巧,不仅学习成本高昂,还容易因操作不一致导致系统风险。KubeBlocks 通过提供标准化的部署模板和统一的操作界面,使得运维人员无需深入学习每种数据库的具体技术细节,就能简单完成各种数据库的部署、扩容、备份、监控等操作。这种统一管理模式不仅大大减轻了技术学习负担,更重要的是确保了运维操作的标准化和一致性,显著降低了人为错误的风险,实现了管理效率的整体提升。
整个平台基于 Kubernetes 1.27 版本进行部署,同时采用了 KubeBlocks 0.9.2 版本进行数据库管理,整个集群配置了 12TB 以上的内存、100TB 以上的存储空间,为向量化数据的存储与计算提供了足够的资源保障。此外平台还配置了专门的 GPU 节点,通过大量 4090 显卡为模型训练和推理提供算力支持。这种分层的硬件架构设计,既保证了数据库服务的稳定运行,又为算法模型的高效执行提供了独立的硬件环境。
通过 KubeBlocks 平台,各个数据库组件实现了标准化部署和统一管理。PostgreSQL 集群部署 14.8.0 版本,配置主从复制和自动故障切换,确保业务数据的高可用性;Elasticsearch 集群部署 8.8.2 版本,构建分布式搜索集群,支持海量文档的快速检索和复杂聚合分析;Qdrant 向量数据库部署 1.10.0 版本,优化了向量索引算法,支持高效的相似性搜索。
平台成功实现了文本级反抄袭、语义级反剽窃和图像级反生成的一体化检测,检测精度和效率均达到行业领先水平。Qdrant 向量数据库的引入使得大规模向量相似性检索速度提升了数倍,能够在毫秒级时间内完成海量向量数据的相似性比较,为实时检测提供了强有力的技术支撑。Elasticsearch 的分布式架构支撑了海量文档的实时检索需求,即使在处理数千万篇论文的情况下,仍能保持优异的查询性能。通过 KubeBlocks 的统一管理,各个数据库服务的可用性达到 99.99%,有效支撑了平台 7×24 稳定运行,为学术机构和期刊提供了可靠的服务保障。
通过 KubeBlocks 的自动化管理,原本需要 3-4 名专业 DBA 维护的多种数据库系统,现在仅需 1 名兼职运维工程师即可完成日常管理工作,人力成本降低了 70% 。新数据库实例的部署时间从原来的几天缩短到几小时,配置变更和扩容操作也实现了一键完成,大大提升了运维效率。标准化的运维流程和自动化的操作减少了人为错误,系统故障率较传统管理方式降低了 80%,显著提升了系统的稳定性和可靠性。
目前平台已成功应用于多个重要学术期刊的论文审核流程,显著提升了学术不端行为的识别准确率和处理效率,通过技术手段有效遏制学术不端行为,为维护科研诚信、优化学术生态提供了有力的技术支撑,平台的成功实施为学术诚信检测领域提供了技术标准和最佳实践,推动了整个行业的技术进步。
自动化所科研论文学术不端主动监测平台的成功实施,充分证明了 KubeBlocks 在复杂数据库环境管理中的卓越能力。项目的成功得益于多个关键因素的有机结合:合理的多模态、多类型技术架构设计充分考虑了学术不端检测的复杂性和多样性需求;针对不同数据类型选择最适合的数据库技术,充分发挥了各个数据库的技术优势;更重要的是,KubeBlocks 作为统一管理平台,不仅简化了运维复杂度,更提升了整个系统的可靠性和可维护性。通过统一的管理平台,不仅实现了技术目标,更重要的是大幅降低了运维成本,提升了系统的整体效率和可靠性。
展望未来,平台将继续在技术创新和应用推广方面发力。随着AI技术的快速发展,平台将持续优化检测算法,提升对新型学术不端行为的识别能力,特别是针对AI生成内容的检测技术。同时,计划向更多学术机构和期刊推广应用,形成更大规模的学术诚信检测网络,推动建立行业统一的学术诚信标准。基于平台的成功实践经验,还将积极参与制定学术诚信检测的行业标准和技术规范,为整个学术界的诚信建设贡献力量。这个成功案例不仅展示了先进技术在学术诚信建设中的重要作用,也为其他类似项目提供了宝贵的实施经验和技术参考。