(资料图片)
今日,智源研究院微信公众号发文称,为加快解决大模型的制约问题,近日,智源发布最强开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型,如OpenAI 的text embedding 002等。此外,BGE 保持了同等参数量级模型中的最小向量维度,使用成本更低。
本次BGE模型相关代码均开源于FlagOpen飞智大模型技术开源体系旗下FlagEmbedding项目,一个聚焦于Embedding技术和模型的新版块。智源研究院将持续向学术及产业界开源更为完整的大模型全栈技术。
与此同时,鉴于当前中文社区缺乏全面的评测基准,智源团队发布了当前最大规模、最为全面的中文语义向量表征能力评测基准C-MTEB (Chinese Massive Text Embedding Benchmark),包含6大类评测任务和31个数据集,为评测中文语义向量的综合表征能力奠定可靠的基础,全部测试数据以及评测代码已开源。
目前,BGE 中英文模型均已开源,代码及权重均采用 MIT 协议,支持免费商用。
关键词: