这周我读得很痛苦SEGY文件。这是世界上最大的地震采集公司的数据,该公司的客户是世界第七大石油公司。所以如果有人能做对的话,你会认为是这两个。
用于存储地震数据的SEGY标准在整个石油行业都在使用,但它的使用年限很长。问题包括:
- 非标准报头信息
- 文本头可以是ASCII或EBCDIC
- 为了节省几个字节而费尽心机
- 存储在IEEE或IBM浮点数中的二进制数据
- 等。
一些最明显的缺陷正在通过v2版本进行修补。详情如下:http://www.seg.org/documents/51956/6062543/SEGY+2.0+draft+February+2014.
这不是一个仅仅通过阅读规范就可以实现的标准,这个新版本也不会帮助解决这个问题。对标准的持续滥用意味着需要花费历年的时间来“调试”一个能够承受真实世界数据文件的库。这对于软件开发人员和与之打交道的地球科学家来说都是非常令人沮丧的。
有一个关于这个很棒的博客最近提到了HDF5
- http://www.agilegeoscience.com/journal/2014/3/27/how-to-load-seg-y-data.html
- http://www.agilegeoscience.com/journal/2014/3/26/what-is-seg-y.html
我更希望看到一个比SEGY更简单、不依赖第三方库的新标准。所以我认为技术就像HDF5(和JavaSeis等)可能在公司中有一个角色,但他们不是SEGY的替代品。即使是像XML江南登录网址app下载这样的技术在未来也会被我们必须读取的数据文件所超越。所以我认为格式需要非常简单和保守。
可以取代SEGY格式的一些特性可能包括:
- 单字符编码(ASCII或UTF-8)
- 所有标题都是人类可读的表单-键-值对?
- 必须的头信息,例如射击点,x/y位置等。
- 标准单位定义,地图投影等。
- 跟踪可以是二进制的,但只能是IEEE的
- 数据应该在一个文件中(SEGY是对的)
- 无数据压缩
那么现在的问题是——我们必须做些什么才能超越令人沮丧的SEGY标准?有没有什么东西是我们应该开始传福音的?如果不是,你认为替换的格式应该是什么样的?
感谢阅读。在这次咆哮之后,我感觉好多了,并且将返回调试为什么字节编号3603是错误的。
编辑:在周末放松之后,这里有一些更多的想法。SEGY之所以复杂,有以下几个原因:
- 固有的复杂性
- 偶发复杂性
- 用户对格式的期望不同
因此,SEGY很难使用,因为地震问题域本身就很难建模。我们很幸运能够受益于那些想出这种模式的人的智慧。
即便如此,多年来,这种形式也积累了很多麻烦。这就造成了一个不小的认知负担,我可以不这样做,但实际上必须要处理。
最后一点很有趣。我们已经有了用于存储原始字段数据的SEGD。这种格式比SEGY更具挑战性,但也是一个埋葬许多真实世界地震数据固有复杂性的好地方。
当人们建议HDF作为替代品时,我猜(可能)他们将SEGY视为一种“处理”格式?
上周,我在考虑将SEGY作为与解释人员共享最终地震量的工具。我在周末读到,80%的SEGY头没有在真实世界的数据中填充。这只是我的推测,但也许我们需要的是
- SEGD用于原始现场数据
- 还有一些实际处理的东西
- 另外还有处理器和解释器之间的数据共享
为了准确、可重复地将地震数据加载到解释系统中,我们不需要太多元数据,但它绝对需要存在。通过SEGY从处理器到解释器的转换是我认为我们可以使用一种新方法的地方。