OPPO研究院：2023多模态预训练模型在OPPO端云场景的落地实践报告

2023年12月25日
50 金币

实现端侧智慧搜索的关键因素：其一，“人话”解读能力。智慧搜图不仅能单独搜词，也能放一起搜，实现真正的口语化表达搜索，所想即所得，如“去年在动物园拍的老虎”等。因此需要类似多模态大模型CLIP（OpenAI）的图文理解能力。其二，高效搜索速度。相比动辄翻上十几分钟半个小时的相册，现在无论从桌面下拉智慧搜索、打开相册、或是用语音助手，都只需要一句话就能搜到想要的图片，系统级地提升了找信息的效率。因此如何实现大模型在端侧的轻量化部署有重大的意义。