Korean, Edit

HDF 文件和filtered_feature_bc_matrix.h5

推荐帖子 【生物信息学】【生物信息学分析内容】(https://jb243.github.io/pages/836)


1. HDF 文件(分层数据格式文件)

2. filtered_feature_bc_matrix.h5



1. HDF 文件(分层数据格式文件)

⑴ 概述

① 用于简单快速的大文件 I/O,无大小限制

② 独立于环境的文件交换方法之一

③ 用于航空航天、物理、工程、金融、学术研究、基因组学、 天文学、电子学、医学等

④ 常用HDF4文件(.h4)和HDF5文件(.h5)

⑵ 使用Python创建、读取和分组HDF文件

① 使用numpy编写

② 使用numpy读取

③ 使用 pandas 编写

○ 数据写入似乎只能使用 2D 数据

○ 尝试写入 3D 数据会导致以下错误

④ 使用pandas阅读

⑤ 参考文献

h5py:用Python读写HDF5文件

○ 【如何使用python将大数据集保存在hdf5文件中? (快速指南)](https://moonbooks.org/Articles/How-to-save-a-large-dataset-in-a-hdf5-file-using-python–Quick-Guide/)

⑶ HDF 文件查看器

① Windows 软件 GDAL、Golden Software Surfer、Safe Software FME Desktop

② Mac OS 软件 NCSA HDFView、基本 ENVISAT 大气工具箱、 WaveMetrics IGOR Pro

③ Linux 软件 GDAL、NCSA HDFView、Basic ENVISAT Atmospheric Toolbox

④ 其他 : HDFView, h5dump 命令 (Linux)



2. Filtered_feature_bc_matrix.h5

HDF5文件层次结构

问题 1. (ST) 大多数空间转录组学管道在 .h5 文件存在的假设下进行。

① 概述

○ 假设存在 .h5 文件,大多数数据集中于下游分析

scanpy.read_visium (Python) 和 Load10X_Spatial (R) 等情况仅接受 .h5 文件作为输入

○ 某些数据库仅提供派生文件,而不公开 .h5 文件

○ Barcodes.tsv.gz、features.tsv.gz、matrix.mtx.gz

解决方案1. R sceasy::convertFormat :失败


受保护_0


○ 原因 根据创建.h5文件时v2或v3的不同,基因组信息的添加不同,导致上述问题

解决方案2. 当有一个tissue_dir目录包含matrix.mtx、barcodes.tsv、features.tsv和spatial文件夹时,R中读取Visium数据的代码。 : 成功


受保护_1


解决方案3. 当存在包含matrix.mtx、barcodes.tsv、features.tsv和spatial文件夹的tissue_dir目录时,Python中读取Visium数据的代码。 成功


受保护_2


故障排除 1. 警告消息:“提供的名称无效,使对象名称在语法上有效。新对象名称为 X1160920F;有关语法有效性的更多详细信息,请参阅 ?make.names”

○ 通过使目录名称以字母而不是数字开头来解决

○ 这不适用于给定的代码,因为没有具体提及目录名称

故障排除2. 异常:文件缺少一个或多个所需的数据集。 (Python)» ○ 如果未按照指定语法创建.h5 文件,则会显示上述错误信息。

问题2. (sc或ST) 如果matrix.mtx.gz、barcodes.tsv或features.tsv损坏:

① 如果matrix.mtx.gz文件损坏,请在R环境中使用readMM读取它并使用writeMM恢复损坏的文件。

② 对于barcodes.tsv和features.tsv,在R环境中使用read.table读取它们,并使用write.table恢复损坏的文件。

问题 3. (sc 或 ST) 从 R 或 Python 对象中提取原始数据

解决方案1. 从R Seurat 对象中提取matrix.mtx、barcodes.tsv 和features.tsv 文件的代码 成功。


受保护_3


应用程序 1. 用于报告 h5 文件中每个条形码的读取计数的 Python 代码。


受保护_4



输入 2022.01.04 09:04

results matching ""

    No results matching ""