第 22 章. 图像生成模型

推荐阅读：【算法】【算法索引】(https://jb243.github.io/pages/1278)

1. DIP

2. 视觉变压器

1.卷积神经网络 (CNN)

⑴【CNN的概念】(https://jb243.github.io/pages/2152)

⑵ 示例1. DIP（深度图像先验）：在没有训练数据的情况下将CNN架构过度拟合到输入图像以生成新图像

⑶ 示例2. Detectron2：由Facebook AI开发。

⑷ 示例3. OpenCV提供的函数

2.计算机视觉基础模型

⑴ 视觉转换器（ViT）

① ViT仅使用transformer编码器结构

② 步骤1. 将图像分割成多个小patch，并将每个patch视为输入到transformer的token

③ 步骤2. 使用变压器编码器嵌入每个补丁

④ 步骤3. 就像在句子中嵌入单词并输出代表句子含义的句子嵌入一样，ViT 学习块之间的关系并输出代表整个图像的特征。

⑤ 限制： self-attention的计算量与组成图像的patch数量的平方成正比，导致很难一次性输入高分辨率图像。

○ 解决方案 1： 将给定图像分成更小的补丁，并将 ViT 独立应用于每个补丁（例如，iSTAR）。

○ 解决方案 2： 引入扩展的自注意力机制，例如使用 LongNet 等模型的扩张自注意力（例如，Prov-GigaPath）。

⑵ 种类

① DINO（自蒸馏无标签）

② IBOT（使用在线分词器进行图像 BERT 预训练）

③ BEiT：采用BERT模型思想的ViT变体，与掩码语言建模类似地进行训练。

○ iSTAR：用于增强空间转录组学的分辨率。它利用使用 DINO 方法训练的基于 BEiT 的模型。

图 1. iSTAR 中的数据准备步骤图

○ 步骤 1. 将给定图像划分为 256 × 256 块。

○ 步骤 2. 将每个补丁进一步划分为 16 × 16 子补丁。

○ 步骤3. 对每个子补丁应用ViT（表示为f2）以获得384维向量。

○ 步骤4. 将384维向量聚合形成16 × 16 × 384数据结构，然后应用另一个ViT（表示为f1）以获得192维向量。

○ 步骤 5. 收集 192 维向量并应用 ViT（表示为 f0）。

○ 特征提取和损失函数公式。

④ Swin Transformer：使用基于窗口的局部自注意力的 ViT 变体。

⑤ CTransPath : Wang 等人，医学图像分析 (2022)

⑥ UNI : Chen et al., Nature Medicine (2024)> ⑦ CONCH（从组织病理学说明中进行对比学习）： Lu et al., Nature Medicine (2024)

⑧ Virchow : Vorontsov 等人，arxiv (2023)

⑨ RudolfV : Dippel 等人，arxiv (2024)

⑩ Campanella : Campanella 等人，arxiv (2023)

⑪ Prov-GigaPath：由微软发布，是一个在 170,000 张病理图像（13 亿图块）上训练的视觉基础模型（2024 年）。

⑫ 棱镜

3。图像生成模型

⑴ 类型

① DALL·E3（OpenAI）

② 中途

③ 稳定扩散

④ 索拉（OpenAI）

⑤ 视频法学硕士

4。视觉语言模型

⑴ 类型

① 稳定扩散：从自然语言生成数字图像的人工智能算法

② MedGemma

③ TITAN：数字病理学

5。视频生成模型

⑴ 类型

① XVFI：光流的一种。

② FILM(Frame Interpolation for Large Motion)：编码器+类似U-Net的解码器

6。可解释性模型

⑴ 类型

① LIME：基于局部近似（代理模型）的解释。可视化每个要素的本地贡献。可以解释任何计算机视觉模型。

② SHAP：使用博弈论 Shapley 值分解预测，得出每个特征的公平贡献。

输入：2024.04.22 14:08

5314

第 22 章. 图像生成模型

1.卷积神经网络 (CNN)

2.计算机视觉基础模型

3。图像生成模型

4。视觉语言模型

5。视频生成模型

6。可解释性模型

results matching ""

No results matching ""