小红书发布行业首个图文多模态大模型DOTS-LMM

近日,小红书正式推出自研多模态大模型DOTS-LMM(Deep Optimization with Transformer for Social-media - Large Multi-modal Model),这是国内首个专注于图文内容理解与生成的大模型。该模型的发布标志着小红书在AI技术研发领域取得重要突破。

dots.jpg

技术亮点:

  1. 多模态能力突出:DOTS-LMM在图文跨模态理解方面表现优异,能够精准捕捉图片与文本间的语义关联

  2. 社交场景优化:针对小红书平台的海量UGC内容进行专项优化,在时尚、美妆、生活方式等内容理解上达到行业领先水平

  3. 高效推理架构:采用创新的稀疏注意力机制,在保持性能的同时大幅降低计算成本

性能表现方面,DOTS-LMM在多个权威评测中展现强大实力:

  • 在Flickr30K数据集上,图文检索准确率较主流模型提升15%

  • 在COCO图像描述生成任务中,BLEU-4分数达到0.42

  • 对中文社交内容的语义理解准确率高达92.3%

应用场景广泛覆盖小红书核心业务:
• 智能内容推荐:提升"发现页"推荐精准度
• 创作者工具:提供智能配文、标签建议等功能
• 内容安全:增强违规内容识别能力
• 广告系统:优化广告素材与用户的匹配度

小红书技术负责人表示:"DOTS-LMM的研发历时18个月,投入超过200名工程师。我们特别注重模型对中文互联网语境的理解能力,这在同类模型中具有独特优势。"

据悉,该模型将首先应用于小红书内部业务系统,未来有计划通过API方式向合作伙伴开放。这一布局显示出小红书正从单纯的社交平台向技术驱动型公司转型,在AI赛道与科技巨头展开差异化竞争。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注