第 22 章. 图像生成模型
推荐阅读:【算法】【算法索引】(https://jb243.github.io/pages/1278)
1. DIP
2. 视觉变压器
3. 图像生成模型
4. 视觉语言模型
5. 视频生成模型
6. 可解释性模型
1.卷积神经网络 (CNN)
⑴【CNN的概念】(https://jb243.github.io/pages/2152)
⑵ 示例1. DIP(深度图像先验):在没有训练数据的情况下将CNN架构过度拟合到输入图像以生成新图像
⑶ 示例2. Detectron2:由Facebook AI开发。
⑷ 示例3. OpenCV提供的函数
2.计算机视觉基础模型
⑴ 视觉转换器(ViT)
① ViT仅使用transformer编码器结构
② 步骤1. 将图像分割成多个小patch,并将每个patch视为输入到transformer的token
③ 步骤2. 使用变压器编码器嵌入每个补丁
④ 步骤3. 就像在句子中嵌入单词并输出代表句子含义的句子嵌入一样,ViT 学习块之间的关系并输出代表整个图像的特征。
⑤ 限制: self-attention的计算量与组成图像的patch数量的平方成正比,导致很难一次性输入高分辨率图像。
○ 解决方案 1: 将给定图像分成更小的补丁,并将 ViT 独立应用于每个补丁(例如,iSTAR)。
○ 解决方案 2: 引入扩展的自注意力机制,例如使用 LongNet 等模型的扩张自注意力(例如,Prov-GigaPath)。
⑵ 种类
① DINO(自蒸馏无标签)
② IBOT(使用在线分词器进行图像 BERT 预训练)
③ BEiT:采用BERT模型思想的ViT变体,与掩码语言建模类似地进行训练。
○ iSTAR:用于增强空间转录组学的分辨率。它利用使用 DINO 方法训练的基于 BEiT 的模型。
图 1. iSTAR 中的数据准备步骤图
○ 步骤 1. 将给定图像划分为 256 × 256 块。
○ 步骤 2. 将每个补丁进一步划分为 16 × 16 子补丁。
○ 步骤3. 对每个子补丁应用ViT(表示为f2)以获得384维向量。
○ 步骤4. 将384维向量聚合形成16 × 16 × 384数据结构,然后应用另一个ViT(表示为f1)以获得192维向量。
○ 步骤 5. 收集 192 维向量并应用 ViT(表示为 f0)。
○ 特征提取和损失函数公式。
④ Swin Transformer:使用基于窗口的局部自注意力的 ViT 变体。
⑤ CTransPath : Wang 等人,医学图像分析 (2022)
⑥ UNI : Chen et al., Nature Medicine (2024)> ⑦ CONCH(从组织病理学说明中进行对比学习): Lu et al., Nature Medicine (2024)
⑧ Virchow : Vorontsov 等人,arxiv (2023)
⑨ RudolfV : Dippel 等人,arxiv (2024)
⑩ Campanella : Campanella 等人,arxiv (2023)
⑪ Prov-GigaPath:由微软发布,是一个在 170,000 张病理图像(13 亿图块)上训练的视觉基础模型(2024 年)。
⑫ 棱镜
3。图像生成模型
⑴ 类型
① DALL·E3(OpenAI)
② 中途
③ 稳定扩散
④ 索拉(OpenAI)
⑤ 视频法学硕士
4。视觉语言模型
⑴ 类型
① 稳定扩散:从自然语言生成数字图像的人工智能算法
② MedGemma
③ TITAN:数字病理学
5。视频生成模型
⑴ 类型
① XVFI:光流的一种。
② FILM(Frame Interpolation for Large Motion):编码器+类似U-Net的解码器
6。可解释性模型
⑴ 类型
① LIME:基于局部近似(代理模型)的解释。可视化每个要素的本地贡献。可以解释任何计算机视觉模型。
② SHAP:使用博弈论 Shapley 值分解预测,得出每个特征的公平贡献。
输入:2024.04.22 14:08