Контроль качества данных


Контроль качества данных проводился в соответствии со схемой принятой в Лаборатории Морского Климата (Ocean Climate Laboratory) NODC (Ingleby, Huddleston, 2007; Johnson et. al., 2009).

Также при подготовке Климатических Атласов Азовского моря 2006 и 2008 и в рамках данного проекта были разработаны общие подходы к контролю качества данных, которые использовались при формировании баз данных (БД) (Матишов и др., 2005; 2009; Matishov et. al., 2009; 2010; Moiseev et al., 2012).

Процедура контроля качества включает:

  • автоматизированный этап объективного контроля качества данных, выполняемый с применением разработанных для этих целей компьютерных программ;
  • этап субъективного анализа, выполняемый специалистом.

Процедура имеет итеративный характер, т.к. после исправления найденных ошибок при повторной автоматической проверке могут быть обнаружены новые.

На этапе объективного контроля производится поиск и учёт возможных ошибок в данных. Результатом является отчёт, содержащий информацию о найденных ошибках и предупреждениях. Наряду с этим также осуществляется автоматическая установка флагов качества для анализируемых данных.

Все проверки можно разделить на несколько групп:

  • контроль форматов данных;
  • проверка пространственно-временного расположения;
  • проверка вертикальной структуры измерений;
  • проверка значений измерений;
  • поиск дубликатов.

В состав первой группы, помимо проверки соответствия формату представления информации, входит набор логических проверок (принадлежность даты станции периоду продолжительности рейса, порядок следования станций и т.д.) и контроль наличия необходимых данных о станции и/или рейсе для сохранения в БД.

Во вторую группу входят проверки, касающиеся правильности координат и контроля временной группы (дата, время):

  • проверка соответствия временного интервала между двумя последовательно выполненными станциями допустимой скорости хода судна;
  • попадание координат станций на сушу;
  • проверка глубины станции в соответствии с рельефом дна (в случае наличия значения глубины на станции);
  • контроль курса судна в течение рейса на предмет определения резко меняющихся направлений движения (зигзагов).

В третью группу входят:

  • проверка на дублирование горизонтов;
  • проверка на наличие отрицательных горизонтов;
  • проверка соответствия значений горизонтов и глубины станции (в случае наличия значения глубины на станции);
  • проверка порядка следования горизонтов (упорядочивание по глубине);
  • контроль на допустимые градиенты гидрологических и гидрохимических параметров.

В четвёртую группу входит контроль параметров на попадание в допустимые диапазоны (по акваториям, времени года, времени суток). Для совместных измерений температуры и солёности воды предусмотрены проверки на инверсию плотности и температуру замерзания. В случае наличия информации об измерительном приборе и его погрешности осуществляется проверка количества значащих цифр для измеренных значений.

В эту группу также входит проверка, основанная на сравнении методик определения некоторых параметров, например, расчёт значений солёности воды на основе результатов измерения значений хлорности.

Помимо проверки корректности данных существует проблема появления дублируемой информации. При большом числе источников информации вероятность получения одних и тех же данных многократно возрастает. Поэтому поиск и исключение дубликатов является актуальной задачей. Трудности её решения обусловлены тем, что часть данных представлена не в первоначальном виде, а после некоторой обработки, особенности которой, как правило, неизвестны.

Для выполнения визуального контроля пространственного расположения все станции наносятся на карту в геоинформационной системе, разработанной с помощью ArcGIS Desktop 9.*. Также визуально производится контроль временной и пространственной изменчивости вертикальных профилей гидролого-гидрохимических параметров.

С помощью разработанных программ (Matishov et. al., 2009; 2010) осуществляется импорт данных в БД. Это заключительный этап обработки данных. Все океанологические данные, используемые для подготовки атласов в рамках International Ocean Atlas and Information Series доступны без ограничений через интернет портал, поддерживаемый Национальным центром Океанологических данных НОАА.