HDF 文件和filtered_feature_bc_matrix.h5
推荐帖子: 【生物信息学】【生物信息学分析内容】(https://jb243.github.io/pages/836)
2. filtered_feature_bc_matrix.h5
1. HDF 文件(分层数据格式文件)
⑴ 概述
① 用于简单快速的大文件 I/O,无大小限制
② 独立于环境的文件交换方法之一
③ 用于航空航天、物理、工程、金融、学术研究、基因组学、 天文学、电子学、医学等
④ 常用HDF4文件(.h4)和HDF5文件(.h5)
⑵ 使用Python创建、读取和分组HDF文件
① 使用numpy编写
② 使用numpy读取
③ 使用 pandas 编写
○ 数据写入似乎只能使用 2D 数据
○ 尝试写入 3D 数据会导致以下错误
④ 使用pandas阅读
⑤ 参考文献
○ 【如何使用python将大数据集保存在hdf5文件中? (快速指南)](https://moonbooks.org/Articles/How-to-save-a-large-dataset-in-a-hdf5-file-using-python–Quick-Guide/)
⑶ HDF 文件查看器
① Windows 软件 : GDAL、Golden Software Surfer、Safe Software FME Desktop
② Mac OS 软件 : NCSA HDFView、基本 ENVISAT 大气工具箱、 WaveMetrics IGOR Pro
③ Linux 软件 : GDAL、NCSA HDFView、Basic ENVISAT Atmospheric Toolbox
2. Filtered_feature_bc_matrix.h5
⑵ 问题 1. (ST) 大多数空间转录组学管道在 .h5 文件存在的假设下进行。
① 概述
○ 假设存在 .h5 文件,大多数数据集中于下游分析
○ scanpy.read_visium (Python) 和 Load10X_Spatial (R) 等情况仅接受 .h5 文件作为输入
○ 某些数据库仅提供派生文件,而不公开 .h5 文件
○ Barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz
② 解决方案1. R sceasy::convertFormat :失败
受保护_0
○ 原因: 根据创建.h5文件时v2或v3的不同,基因组信息的添加不同,导致上述问题
③ 解决方案2. 当有一个tissue_dir目录包含matrix.mtx、barcodes.tsv、features.tsv和spatial文件夹时,R中读取Visium数据的代码。 : 成功
受保护_1
④ 解决方案3. 当存在包含matrix.mtx、barcodes.tsv、features.tsv和spatial文件夹的tissue_dir目录时,Python中读取Visium数据的代码。 : 成功
受保护_2
⑤ 故障排除 1. 警告消息:“提供的名称无效,使对象名称在语法上有效。新对象名称为 X1160920F;有关语法有效性的更多详细信息,请参阅 ?make.names”
○ 通过使目录名称以字母而不是数字开头来解决
○ 这不适用于给定的代码,因为没有具体提及目录名称
⑥ 故障排除2. 异常:文件缺少一个或多个所需的数据集。 (Python)» ○ 如果未按照指定语法创建.h5 文件,则会显示上述错误信息。
⑶ 问题2. (sc或ST) 如果matrix.mtx.gz、barcodes.tsv或features.tsv损坏:
① 如果matrix.mtx.gz文件损坏,请在R环境中使用readMM读取它并使用writeMM恢复损坏的文件。
② 对于barcodes.tsv和features.tsv,在R环境中使用read.table读取它们,并使用write.table恢复损坏的文件。
⑷ 问题 3. (sc 或 ST) 从 R 或 Python 对象中提取原始数据
① 解决方案1. 从R Seurat 对象中提取matrix.mtx、barcodes.tsv 和features.tsv 文件的代码: 成功。
受保护_3
⑸ 应用程序 1. 用于报告 h5 文件中每个条形码的读取计数的 Python 代码。
受保护_4
输入: 2022.01.04 09:04