AIGC技术研究与应用 ---- 下一代人工智能:新范式!新生产力!(2.3-大模型发展历程 之 多模态)

news/2024/7/4 11:25:37

文章大纲

  • 什么是多模态
  • stable diffusion
  • “ CLIP + 其他模型”成为通用的做法
  • 多模态模态生成:文字生成图像取得突破,其他领域仍有待提升
  • 参考文献与学习路径
    • GPT 系列模型解析
    • 前序文章
    • 模型进化
    • 券商研报
    • 陆奇演讲
    • 多模态


什么是多模态

多模态生成, 指将一种模态转换成另一种模态, 同时保持模态间语义一致性 。主要集中在文字生成图片 、文字生成视频及图片生成文字。

stable diffusion

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

“ CLIP + 其他模型”成为通用的做法

多模态定义: 多模态生成, 指将一种模态转换成另一种模态, 同时保持模态间语义一致性 。主要集中在文字生成图片 、文字生成视频及图片生成文字。
◼ Transformer架构的跨界应用成为跨模态重要开端之一 。多模态训练普遍需要匹配视觉的区域特征和文本特征序列, 形成Transformer架构擅长处理的一 维长序列, 与Transformer的内部技术架构相符合 。此外Transformer架构还具有更高的计算效率和可扩展性, 为训练大型跨模态模型奠定了基础。
◼ CLIP ( Contrastive Language-Image Pre-training, 可对比语言-图像预训练算法) 成为图文跨模态重要节点。
✓ 2021年, OpenAI发布了CLIP, 是一种经典的文图跨模态检索模型, 在大规模图文数据集上进行了对比学习预训练, 具有很强的文图跨模态表征学习能 力 。CLIP模型包含图像和文本的Encoder两部分, 用于对图像和文本分别进行特征抽取。
✓ “CLIP+其他模型”在跨模态生成领域成为较通用的做法, 如Disco Diffusion, 其原理为CLIP模型持续计算Diffusion模型随机生成噪声与文本表征的 相似度, 持续迭代修改, 直至生成可达到要求的图像。


多模态模态生成:文字生成图像取得突破,其他领域仍有待提升

◼ 文字生成图像: 2021年, OpenAI推出了CLIP和DALL-E, 一年后推出了DALL-E2; 2022年5月, 谷歌推出了Imagen和新一代AI绘画大师Parti; 2022年 8月, Stability Al推出Stable diffusion并宣布开源 。国内主流的AI绘画平台有文心一格 、盗梦师 、意间AI 、Tiamat等。
◼ 文字生成视频: 以Token为中介, 关联文本和图像生成, 逐帧生成所需图片, 最后逐帧生成完整视频 。但由于视频生成会面临不同帧之间连续性的问题, 对 生成图像间的长序列建模问题要求更高, 以确保视频整体连贯流程 。按技术生成难度和生成内容, 可区分为拼凑式生成和完全从头生成。

◼ 图像/视频生成文本: 具体应用有视觉问答系统 、配字幕 、标题生成等, 代表模型有METER 、ALIGN等。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述


参考文献与学习路径

车万翔等统稿

  • ChatGPT 调研报告

模型部署简介

  • https://github.com/open-mmlab/mmdeploy/blob/master/docs/zh_cn/tutorial/01_introduction_to_model_deployment.md

GPT 系列模型解析

ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT

  • https://blog.csdn.net/v_JULY_v/article/details/128579457

数云融合|探究GPT家族的进化之路:GPT-3、GPT-3.5和GPT-4的比较分析

  • https://zhuanlan.zhihu.com/p/616691512

前序文章

  • 初探 GPT-2
  • 生成式AI(Generative AI)将重新定义生产力
  • AIGC 后下一个巨大的风口:AI生成检测
  • 代表AIGC 巅峰的ChatGPT 有哪些低成本开源方案能够复现?
  • 如何驯化生成式AI,从提示工程 Prompt Engineering 开始 !

模型进化

面向统一的AI神经网络架构和预训练方法

  • https://www.sohu.com/a/673342257_121124371

券商研报

从ChatGPT到生成式AI:人工智能新范式重新定义生产力

  • https://xueqiu.com/9005856403/240887888
  • https://xueqiu.com/5159309685/241858304
    浙商证券:《AIGC算力时代系列:ChatGPT研究框架》
    国泰君安:ChatGPT研究框架(2023)

腾讯研究院:AIGC发展趋势报告2023

华东政法大学:人工智能通用大模型ChatGPT的进展风险与应对

  • http://www.199it.com/archives/1568017.html

ChatGPT浪潮下,看中国大语言模型产业发展

  • https://www.iresearch.com.cn/Detail/report?id=4166&isfree=0

AI服务器拆解,产业链核心受益梳理

  • https://xueqiu.com/2524803655/247578353

国海证券,AIGC深度行业报告:新一轮内容生产力革命的起点
https://xueqiu.com/6695901611/243415262

陆奇演讲

飞书的赛比链接不能复制只能看。。。

陆奇演讲PPT官方版
https://miracleplus.feishu.cn/file/TGKRbW4yrosqmixCtprcUlAynzg
陆奇演讲视频官方版
https://miracleplus.feishu.cn/file/OrO7bivJeoT6FxxSjaJcXWlwncS
陆奇演讲文本官方版
https://miracleplus.feishu.cn/docx/Mir6ddgPgoVs3KxF6sncOUaknNS

微信公众号版本 ,能复制

  • https://mp.weixin.qq.com/s/fzYxwaANqWpqxC__1zTNDA

多模态

直观理解Stable Diffusion

  • https://zhuanlan.zhihu.com/p/598999843

http://www.niftyadmin.cn/n/393693.html

相关文章

实战Windows Chrome 0day

遇到挑战跟挫折的时侯,我有一个坚定的信念,我可以断气,但绝不能放弃 漏洞复现 实战Windows Chrome 0day需要满足的条件 第一点是关闭沙箱环境 第一种方式 设置Chrome浏览器的快捷方式 在快捷方式上增加 -no-sandbox 第二种方式 命令行命令…

大数据Doris(三十四):Doris配置Spark与Yarn

文章目录 Doris配置Spark与Yarn 一、Doris配置Spark 1、配置 SPARK_HOME 环境变量 2、配置SPARK 依赖包

软考A计划-电子商务设计师-电子商务系统分析与设计

点击跳转专栏>Unity3D特效百例点击跳转专栏>案例项目实战源码点击跳转专栏>游戏脚本-辅助自动化点击跳转专栏>Android控件全解手册点击跳转专栏>Scratch编程案例 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分享&am…

JDK8新特性,记录常用的知识点

文章目录 一、函数式接口二、Lambda表达式三、Stream四、Optional 一、函数式接口 只包含一个抽象方法的接口,称为函数式接口并且可以使用lambda表达式来创建该接口的对象,可以在任意函数式接口上使用FunctionalInterface注解,来检测它是否是…

【走进Linux的世界】Linux---基本指令(2)

个人主页:平行线也会相交 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 平行线也会相交 原创 收录于专栏【Linux专栏】🎈 本专栏旨在分享学习Linux的一点学习心得,欢迎大家在评论区讨论💌 目录 ls *man指令小…

chatgpt赋能python:Python取款:让你的银行账户管理更智能

Python取款:让你的银行账户管理更智能 介绍 Python不仅是一种全球广泛应用的计算机编程语言,而且还拥有很多适合财务管理和数据处理的工具,用于提高效率和减少错误。本文将重点介绍如何使用Python自动管理银行账户的取款,以及…

二叉树的链式结构 - C语言(含有大量递归)

目录: 🍔前言 🍔二叉树链式结构的实现 🍟基本构架 😍代码: 🍔二叉树的遍历 🍟前序遍历 🍟中序遍历 🍟后序遍历 🍟层序遍历 &#x1f53…

SpringBoot+MyBatis 搭建项目基本框架

参考资料:mall整合SpringBootMyBatis搭建基本骨架 一 背景 做的项目多了,就会发现,每次新项目起步,都是一样的。应该整理一个通用的模板来进行快速启动新项目。 二 使用到的框架简介 1.SpringBoot SpringBoot可以让你快速构建基于Spring…