小红书发布行业首个图文多模态大模型DOTS-LMM
近日,小红书正式推出自研多模态大模型DOTS-LMM(Deep Optimization with Transformer for Social-media - Large Multi-modal Model),这是国内首个专注于图文内容理解与生成的大模型。该模型的发布标志着小红书在AI技术研发领域取得重要突破。
技术亮点:
-
多模态能力突出:DOTS-LMM在图文跨模态理解方面表现优异,能够精准捕捉图片与文本间的语义关联
-
社交场景优化:针对小红书平台的海量UGC内容进行专项优化,在时尚、美妆、生活方式等内容理解上达到行业领先水平
-
高效推理架构:采用创新的稀疏注意力机制,在保持性能的同时大幅降低计算成本
性能表现方面,DOTS-LMM在多个权威评测中展现强大实力:
-
在Flickr30K数据集上,图文检索准确率较主流模型提升15%
-
在COCO图像描述生成任务中,BLEU-4分数达到0.42
-
对中文社交内容的语义理解准确率高达92.3%
应用场景广泛覆盖小红书核心业务:
• 智能内容推荐:提升"发现页"推荐精准度
• 创作者工具:提供智能配文、标签建议等功能
• 内容安全:增强违规内容识别能力
• 广告系统:优化广告素材与用户的匹配度
小红书技术负责人表示:"DOTS-LMM的研发历时18个月,投入超过200名工程师。我们特别注重模型对中文互联网语境的理解能力,这在同类模型中具有独特优势。"
据悉,该模型将首先应用于小红书内部业务系统,未来有计划通过API方式向合作伙伴开放。这一布局显示出小红书正从单纯的社交平台向技术驱动型公司转型,在AI赛道与科技巨头展开差异化竞争。