Алгоритмы градуировки БИК анализаторов с применением методов многомерного анализа тема диссертации и автореферата по ВАК РФ 05.11.13, кандидат наук Скутин, Илья Владимирович

  • Скутин, Илья Владимирович
  • кандидат науккандидат наук
  • 2014, Санкт-Петербург
  • Специальность ВАК РФ05.11.13
  • Количество страниц 138
Скутин, Илья Владимирович. Алгоритмы градуировки БИК анализаторов с применением методов многомерного анализа: дис. кандидат наук: 05.11.13 - Приборы и методы контроля природной среды, веществ, материалов и изделий. Санкт-Петербург. 2014. 138 с.

Оглавление диссертации кандидат наук Скутин, Илья Владимирович

Оглавление

Введение

1 Аналитический обзор алгоритмов многомерной градуировки

1.1 Общие принципы градуировки

1.2 Методы снижения размерности исходных данных

1.2.1 Метод главных компонент

1.2.2 Описание спектральных данных с помощью ряда Фурье

1.3 Методы создания многомерных градуировочных моделей

1.3.1 Множественная линейная регрессия

1.3.2 Регрессия на главных компонентах

1.3.3 Проекция на латентные структуры

1.3.4 Математическое программирование

1.3.5 Искусственные нейронные сети

1.3.6 Метод опорных векторов

1.4 Статистические характеристики для оценки предсказательной способности градуировочных моделей

Выводы к главе 1. Постановка задачи

2 Общие принципы расчета многомерных градуировочных моделей для БИК - анализаторов

2.1 Особенности БИК - анализаторов

2.1.1 Общий принцип работы БИК - анализаторов типа ИнфраЛЮМ ФТ-10

2.1.2 Использование предварительных обработок спектров

2.2 Особенности расчета многомерных градуировочных моделей для БИК -анализаторов

2.2.1 Общие принципы расчета многомерных градуировочных моделей для БИК - анализаторов

2.2.2 Основные этапы, влияющие на качество многомерных градуировочных моделей для БИК - анализаторов

Выводы к главе 2

3 Декомпозиция исходных данных, перед расчетом регрессионных коэффициентов, как способ повышения точности анализа

3.1 Особенности применения декомпозиции исходных данных

3.1.1 Декомпозиция с помощью МГК

3.1.2 Декомпозиция с помощью преобразования Фурье

3.2 Введение дополнительных этапов декомпозиции данных, перед расчетом регрессионных коэффициентов с помощью МП и МОВ

Выводы к главе 3

4 Экспериментальная проверка предложенной методики градуировки на БИК - анализаторе ИнфраЛЮМ ФТ-10

4.1 Формирование набора данных для расчета градуировочной модели

4.1.1 Регистрация первичных свойств и ввод данных о вторичных свойствах образцов

4.1.2 Формирование градуировочного и валидационного набора образцов

4.2 Процесс расчета градуировочной модели

4.2.1 Оптимизация количества и порядка применения предварительных математических обработок

4.2.2 Оптимизация параметров алгоритмов обучения градуировочной модели

4.2.3 Оптимизация прочих параметров

4.2.4 Обучение градуировочной модели

4.3 Образцы, используемые в экспериментах

4.4 Результаты проверки рассчитанных градуировочных моделей

4.5 Анализ полученных результатов 114 Выводы к главе 4

5 Методика создания многомерных градуировочных моделей для БИК анализаторов обеспечивающих более высокую точность анализа

5.1 Алгоритм расчета регрессионных коэффициентов с использованием математического программирования и предварительной декомпозицией исходных с помощью преобразования Фурье

5.2 Методика градуировки анализаторов с использованием математического программирования и предварительной декомпозицией исходных данных с помощью преобразования Фурье

Научная новизна

Практическая ценность

Выводы

Список литературы

Приложение 1

Рекомендованный список диссертаций по специальности «Приборы и методы контроля природной среды, веществ, материалов и изделий», 05.11.13 шифр ВАК

Введение диссертации (часть автореферата) на тему «Алгоритмы градуировки БИК анализаторов с применением методов многомерного анализа»

Введение

В условиях современного производства, практически во всех отраслях промышленности, в том числе и в сельском хозяйстве, одной из главных задач является исследование состава продукции. Подобные исследования, на сегодняшний день, неотъемлемая часть этапа контроля качества готовой продукции. Данные о составе используются для определения стоимости продукции. Оптимизации технологического процесса (сокращение расхода сырья, повышение качества продукции), идентификации и фальсификации образцов. Традиционно, для решения подобных задач использовались стандартизованные методы, которые, как правило, основаны на проведении химических реакций [1, 2, 3, 4]. Недостатки данных методов, очевидны: их использование приводит к разрушению образца; обычно необходимо выполнять анализ вручную; данные методы требуют высокой квалификации персонала; занимают много времени. Очевидно, что в условиях непрерывного производства, с помощью подобных методов, возможно, обеспечить лишь выборочный контроль, с существенной временной задержкой. Поэтому приходится использовать косвенные методы измерения, где исследуемые свойства образцов определяют путем измерения других свойств образцов, зависящих от исследуемых свойств, которые, могут быть легко измерены напрямую [5]. С появлением мощных вычислительных машин появилась возможность автоматизировать процесс анализа с помощью методов, основанных на спектральном анализе в ближней инфракрасной (БИК) области.

Спектроскопия БИК-области представляет собой современный инструментальный метод количественного и качественного анализа различных объектов. Используемая область спектра безопасна как для оператора, так и для анализируемого объекта, что при соответствующем техническом обеспечении позволяет исследовать различные продукты без нанесения им какого-либо вреда. Зерно, которое использовалось для анализа, в дальнейшем вполне пригодно для выращивания из него растений [6]. В настоящее время, в России, БИК анализаторы широко используют для решения проблемы контроля качества продукции растениеводства. Контроль качества осуществляется на основании существующих национальных государственных стандартов, регламентирующие содержание белка, жира и других показателей в исходном сырье, например, в зернах пшеницы. Методы БИК-спектроскопии применяются также для

IV, "м

анализа почв, кормов, комбикормового сырья и комбикормов, яиц и яичного порошка, жидкого и порошкового молока, мясных изделий и ряда других продуктов питания [7, 8, 9, 10,11].

Результатом измерения, выполненного с помощью, БИК-спектрометра, является инфракрасный спектр. Под спектром понимают зависимость интенсивности поглощения (отражения или рассеивания) излучения от длины волны в заданном диапазоне. Спектры поглощения (отражения, рассеивания) молекул являются уникальными для каждого вещества, а интенсивность их связана с содержанием поглощающего компонента в исследуемом объекте [12]. Таким образом, величина интенсивности полосы поглощения (отражения, рассеивания) может быть связана градуировочной зависимостью с количественным содержанием интересующего вещества в анализируемой пробе. Однако, в БИК-спекгроскопии, используемые количественные связи зачастую слишком сложны. Вызвано это тем, что спектры в БИК-области содержат множество широких перекрывающихся полос поглощения (отражения, рассеивания), которые накладываются на полосу, интересующего нас компонента [13]. Это не позволяет построить простую градуировочную зависимость между интенсивностями характерной полосы с содержанием интересующего вещества. В таком случае формируют многомерную градуировочную модель [14], которая связывает весь массив спектральной информации с содержанием интересующего компонента.

При наличии отградуированного прибора (т.е. прибора с многомерной градуировочной моделью), для получения информации о количественном содержании интересующего компонента достаточно заполнить рабочую камеру прибора исследуемым образцом. После регистрации спектра пропускания (отражения, рассеивания), которое занимает несколько минут, зафиксировать, вычисленный по градуировочной модели, окончательный результат в цифровом виде, в требуемых единицах измерения [15]. При этом, одновременно может быть вычислено количественное содержание целого ряда компонентов, в исследуемом образце, на определение которых предварительно отградуирован прибор. Например, можно легко определять количественное содержание любых показателей регламентированных стандартами для зерновых культур [13].

Создание градуировочной модели довольно трудоемкий процесс [16]. Обычно эту работу выполняют специалисты компании, поставляющие прибор, а конечные пользователи получают отградуированный для их нужд, готовый к работе анализатор.

Градуировочная модель является неотъемлемой частью анализа. Способность модели предсказывать исследуемые свойства по зарегистрированным на приборе косвенным свойствам (спектрам образцов) напрямую влияет на точность измерений. [17] Очевидно, что замена градуировочной модели на ту, которая обладает лучшими предсказательными способностями, повышает точность анализатора в целом. Учитывая, что замена градуировочной модели не сложная процедура и даже может быть выполнена «на лету», без остановки процесса контроля качества [18], создание методики, для расчета градуировочных моделей, которые способны с более высокой точностью предсказывать исследуемые свойства, является актуальной задачей [19].

• Целью работы является разработка методики создания многомерных градуировочных моделей для серии БИК-Фурье анализаторов, которая позволит обеспечить более высокую точность измерений при проведении анализа определенных образцов продукции.

Для достижения цели предполагается решить следующие задачи:

• провести анализ основных этапов создания многомерных градуировочных моделей;

• исследовать существующие, широко используемые для БИК - анализаторов алгоритмы создания многомерных градуировочных моделей;

• разработать методику создания многомерных градуировочных моделей, которая позволит обеспечить более высокую точность измерений;

• подтвердить работоспособность предложенной методики для различных наборов образцов;

Основной задачей данной работы является разработка методики создания многомерной градуировочной модели, которая способна повысить точность определения анализируемых свойств некоторых образцов по результатам измерения их спектральных характеристик по сравнению с известными аналогичными методиками, которые широко применяются для градуировки БИК-анализаторов. Это позволит повысить точность анализа в целом, без необходимости проведения дополнительных корректировок и манипуляций с оборудованием, применения различных способов специальной подготовки образцов, что отнимает время и требует особой квалификации.

Работа содержит пять глав.

В первой главе излагаются основные концепции градуировки БИК-анализаторов, вводятся теоретические понятия хемометрики, хемометрического подхода к анализу данных [20]. Рассматриваются основные методы, использующиеся для снижения размерности исходных данных, применяемые в БИК — спектроскопии для создания гра-дуировочных моделей отличающиеся более высокой предсказательной способностью [14]. Подробно рассматриваются принципы работы основных алгоритмов, широко использующихся для расчета многомерных градуировочных моделей БИК - анализаторов. Выделены основные достоинства и недостатки каждого из алгоритмов. Описаны основные методы для статистической оценки качества градуировочных моделей.

По окончании главы сделаны выводы и поставлена исследовательская задача, направленная на разработку методики создания многомерных градуировочных моделей, обеспечивающих более высокую точность определения анализируемых свойств некоторых образцов для всей серии приборов исследуемого типа, по сравнению с исследованными методами.

Во второй главе дается описание основных особенностей градуировки инфракрасных анализаторов. Рассматриваются сущность и возможности ближней инфракрасной спектроскопии, а также особенности метода Фурье-спектроскопии [21] и соответствующих приборов. Описана общая схема градуировки инфракрасных анализаторов и критерии, используемые для оценки качества градуировочных моделей. Представлены основные методы предобработки спектральных данных, которые могут оказывать влияние на качество градуировочных моделей, и будут исследоваться в данной работе, произведена их классификация и перечислены достоинства и недостатки. В заключение сделаны соответствующие выводы по данной главе.

В третьей главе рассматривается теоретическая возможность добавления в некоторые методики создания многомерных градуировочных моделей этапа декомпозиции исходных данных. Описывается предполагаемое влияние на конечный результат добавления этапа декомпозиции, учитывая особенности алгоритмов. Представлен алгоритм расчета регрессионных коэффициентов с помощью некоторых известных и применяемых алгоритмов с предварительной декомпозицией исходных данных с помощью известных методов. Так же раскрыто содержание операций, реализуемых в соответствии с данным алгоритмом. В заключение сделаны соответствующие выводы по данной главе.

В четвертой главе дается описание устройства и принципов работы БИК-Фурье анализатора ИнфраЛЮМ ФТ-10, который использовался для проведения исследований в данной работе, представлена оптическая схема прибора. Приводится описание исходных данных, выбранных для проведения необходимых экспериментов и результаты экспериментальных исследований работоспособности методик создания градуи-ровочных моделей предложенных в главе 3. На основании полученных данных проведен их сравнительный анализ и сделаны соответствующие выводы.

В пятой главе дается описание методики создания многомерной градуировочной модели, предложенной в данной работе для решения поставленной задачи. Приведен алгоритм методики и раскрыто содержание операций, реализуемых в соответствии с данной методикой.

В заключение приводятся выводы по работе.

На защиту выносятся следующие основные положения:

• Анализ основных этапов создания многомерных градуировочных моделей БИК анализаторов

• Методика, позволяющая создавать многомерные градуировочные модели, обеспечивающие повышенную точность анализа

• Практическое применение созданных многомерных градуировочных моделей, полученных с помощью разработанной методики, для БИК анализаторов Инфралюм ФТ-10

Работа была апробирована на международных конференциях: «Eighth Winter Symposium on Chemometrics. Mathematical programming method as a means of calibration of NIR analyzers» (Дракино, февраль 2012), «Конференция молодых ученых СПБГТИ» (Санкт-Петербург, сентябрь 2012).

По теме диссертации опубликовано 4 печатные работы, из них 3 статьи. Подана заявка на получение патента (№ заявки 2013133490, дата подачи 18.07.2013).

Результаты работы переданы в НПФ АП «Люмэкс» и составлен соответствующий акт об этом.

1 Аналитический обзор алгоритмов многомерной градуировки

1.1 Общие принципы градуировки

Для любого непрямого метода анализа свойств образцов очень важным является этап определения математических соотношений между результатами измерений величин измеряемых непосредственно прибором и значениями анализируемых параметров образцов, от которых зависят результаты измерений, но которые не измеряются непосредственно. Для удобства изложения величины, измеряемые непосредственно прибором, будут называться «первичными свойствами», а анализируемые параметры образцов - «вторичными свойствами» [12]. Поиск математического выражения количественного соотношения между измеряемыми на приборе первичными свойствами и анализируемыми вторичными свойствами образца, называется градуировкой. В настоящее время, использование ЭВМ позволяет быстро рассчитать градуиро-вочные уравнения и получить аналитическое выражение искомой зависимости.

В основе спектроскопии, в целом, лежит основной закон поглощения света - закон Бугера — Ламберта — Берра, который описывает поглощение света средой, через которую свет пропущен. Закон линейно связывает между собой интенсивность света прошедшего через слой среды определенной толщины и интенсивность исходного светового потока, или другими словами, оптическая плотность О пропорциональна концентрации поглощающего компонента С и толщине поглощающего слоя /.

где 8 - коэффициент пропорциональности, зависящий от длины волны излучения и природы поглощающего образца; С — концентрация поглощающего компонента, моль/л; I — толщина поглощающего слоя, см; Т — пропускание вещества, определяемое по формуле:

(1.1)

где I - интенсивность излучения, прошедшего через образец,

/0 - интенсивность излучения, падающего на образец.

Таким образом, из формулы (1.1) следует, что, зная оптическую плотность, коэффициент пропорциональности и длину слоя, можно определить концентрацию компонента [22]. В такой форме закон поглощения используется в ближней инфракрасной спектроскопии при измерении пропускания излучения анализируемым объектом.

Теоретически все просто: для определения концентрации поглощающего вещества необходимо определить длину волны, соответствующую максимуму поглощения вещества, измерить оптическую плотность и по формуле (1.1) вычислить результат. Однако идеальный случай, когда объект оптически однороден и среда прозрачна, требующий однократного измерения оптической плотности при определенной длине волны, встречается очень редко. В большинстве случаев среда поглощает пропускаемый свет, и полосы поглощения перекрываются, что заставляет проводить измерения при нескольких длинах волн. В основе этих способов лежит свойство аддитивности оптической плотности [12]:

п=ц+ А+...Д (1.3)

и

И = 8УСХ1 + е2С21 +...£пСп1 (1.4)

или

= С,) (1.5)

/=1

Если коэффициенты поглощения £ известны или их можно определить экспериментально, а / имеет постоянное значение, например, при использовании одной и той же кюветы, для определения концентрации компонента достаточно п измерений при / длинах волн. Поэтому практически все спектральные приборы, в том числе и

10

использовавшийся для исследований в данной работе, проводят измерения не на какой-то конкретной длине волны, а осуществляет регистрацию в диапазоне длин волн [23]. Прибор «ИНФРАЛЮМ ФТ-10», используемый для исследований, осуществляет регистрацию на довольно большом количестве длин волн. Диапазон работы анализатора 0.7-1.2мкм (8000- 14000 см"1 с шагом 16см"1).

Результаты измерения оптической плотности вещества, соответствующие формулам (1.3) и (1.5), представляются в виде спектра, характеризующего величину оптической плотности в данном диапазоне длин волн. Это позволяет определять концентрации нескольких компонентов, если указанные компоненты имеют свои характерные полосы поглощения.

Однако спектры в ближней инфракрасной области содержат множество широких, перекрывающихся полос, так как свет в этой части спектра поглощается широким спектром компонентов, которые содержаться в образцах, в том числе и исследуемым. На рисунке 1.1 представлен пример спектра пропускания зерна пшеницы, на характер которого влияют различные показатели (протеин, жир, клейковина, влага, фосфор, кальций и т.д.).

Рисунок 1.1— спектр пропускания пшеницы в ближней инфракрасной области

В связи с тем, что в БИК-диапазоне нет узких характеристичных полос поглощения, при анализе сложных по составу материалов, анализ проводится по спектральным особенностям [24]. Проведение такого анализа требует процедуры градуировки БИК-анализатора. Упрощенно, процедуру можно описать следующим образом.

Для каждого образца, участвующего в градуировке, измеряется величина оптической плотности на каждой длине волны. В результате чего получается массив спектральных данных размерностью [их/]. Полученный массив спектральных данных, необходимо связать с матрицей известных значений вторичных свойств размерностью [их£], с помощью специально разработанных для этого математических алгоритмов. Где к - количество исследуемых свойств Математическое описание того, как изменения вторичных свойств отражается в первичных, в БИК-спектроскопии называют многомерной градуировочной моделью.

Градуировку спектральных анализаторов и подобных приборов можно представить в следующем виде. Множество объектов Х = (х,,х2...хм) - первичные свойства, п - ого количества образцов, каждый образец измерен с помощью БИК - анализатора на / - длинах волн. Где Х1 = / — \...п, а множество объектов X является матрицей размерностью [их/]. Множество объектов У = (у1,у2...уп) -

вторичные свойства, измеренные с помощью стандартизированных прямых методов п - ого количества образцов. Вторичные свойства каждого образца могут содержать данные о нескольких исследуемых свойствах, т.е. у — (у1,у2~.у1), * = 1-й, где 5

- количество исследуемых свойств. Однако на практике, градуировочные модели, рассчитываются для каждого исследуемого свойства по отдельности, поэтому под вторичными свойствами, далее будем подразумевать вектор у размерностью [п х 1] . Расчет градуировочной модели представляет собой задачу восстановления зависимости Ф: X —» у, где Ф - решающая функция, которая приближает искомую зависимость, причем, не только для имеющихся первичных свойств, но и для любых возможных объектов на множестве X [25]. Записать задачу градуировки можно следующим образом:

(У»Уг-Уп) = Ф(*.> ...хп\Ь„Ьг..Ь,) + е (1-6)

где е - погрешности (ошибки) которые всегда присутствуют в градуировочной зависимости, их природа - конечное число объектов первичных и вторичных свойств, погрешности измерений, ошибки при пробоотборе и многое другое; Ъ - вектор регрессионных коэффициентов; п - количество образцов участвующих в градуировке; / - количество длин волн в спектре.

Согласно уравнению (1.6) для создания градуировки требуется решить следующие задачи:

• Определить вид зависимости Ф

• Провести оценку вектора регрессионных коэффициентов

Исходя из того, что оптическая плотность линейно связана с концентрацией вещества, согласно формуле (1.1), при градуировке спектральных анализаторов и подобных приборов чаще всего полагают, что первичные свойства связаны с вторичными линейной зависимостью. Тем более, известно, что разработчики методик чаще всего сводят градуировку к нахождению линейной зависимости (ограничивая интервал в котором строится градуировочная зависимость линейным участком или переходят к координатам, в которых эта зависимость линейна [6]). Поэтому решающая функция для задачи многомерной линейной регрессии может быть представлена в виде:

Ф(х) = (6-х) + е О-7)

Выражение (1.7) представляет собой уравнение гиперплоскости в пространстве Я^,

которое приближает точки у. на аргументах X.. для всех j = \...f. Если бы длин

I У

волн было всего две, уравнение гиперплоскости (1.7) превратилось бы в уравнение прямой [26].

На основании уравнений (1.6) и (1.7) можно утверждать, что при исследовании образца с неизвестными вторичными свойствами, достаточно зарегистрировать его первичные свойства Х0, а затем с помощью формулы:

(1.8)

оценить концентрацию интересуемого компонента .

Произвести оценку вектора неизвестных регрессионных коэффициентов (Ь0,Ьг.Ьу) сложнее. Для восстановления зависимости Ф:Х—>у, по имеющейся

выборке первичных свойств с известными вторичными свойствами, необходимо построить математическую модель, способную обучатся, и обучить ее с помощью выбранного алгоритма по имеющейся выборке исходных данных. Такая задача называется задачей обучения по прецедентам [27]. В теории искусственного интеллекта есть обширный раздел, изучающий алгоритмы обучения подобных математических моделей. Существуют разные способы машинного обучения, но в БИК - спектроскопии, как правило, все модели обучаются с помощью способа «обучение с учителем». Согласно данному способу система принудительно обучается, с помощью конечного числа примеров «стимул - реакция». После обучения, рассчитываются определенные статистические характеристики, позволяющие исследователю принять решение о перспективах модели, для любого объекта, из множества возможных первичных свойств, выдать ответ необходимой точности [28].

Для того, чтобы оценить вектор искомых регрессионных коэффициентов (Ь1,Ь2..Ьу'), представим самый простой случай — нам известна длина волны /, при

которой наблюдается наиболее тесная связь между первичными и вторичными свойствами. Перепишем уравнение (1.6) в более компактной форме, учитывая принятые допущения.

у,=Ь0+Ь1х/.+е1 (1.9)

где / = 1...«

Ху — поглощение г - ого образца на длине волны /;

Ь0 и Ъх — постоянные коэффициенты уравнения регрессии, которые можно определить с известной степенью приближения;

е, - ошибка для I - ого образца; Очевидно, что если минимизировать сумму всех ошибок е,, можно полагать, что оценки Ь0 и Ьх оценены оптимальным образом. Математически это может быть записано в следующем виде:

S = t^=t(y,-b0-blX f (1.10)

( = 1 z = l /(

Определить данные коэффициенты можно с помощью известной теоремы Ферма, продифференцировав уравнение (1.10) сначала по Ь0, затем по Ъх и приравняв частные производные к нулю.

dS

~17- = Z(y¡-bo-blxft) = 0 abQ 1=1

(1.11)

abx i=i

Решив систему уравнений (1.11) можно вычислить коэффициент Ь{, а затем коэффициент Ь0, подставив в любое из уравнений известный коэффициент Ьх [29].

Í(xfl ~ХУ (1.12)

b0=y-bxx

где х - среднее арифметическое значений xf¡

у - среднее арифметическое значений у.

Случаи, когда для единственной длины волны, в БИК-области, наблюдается наиболее тесная связь между первичными и вторичными свойствами на практике

практически не встречаются [30]. При градуировке БИК анализаторов используют уравнения с несколькими независимыми переменными. Решение таких систем линейных уравнений представляет собой очень трудоемкую задачу, так как размерность массива исходных данных может превышать 500 столбцов и 50 строк. Естественно, в настоящее время, для расчета многомерных градуировок используют ЭВМ и специально разработанные методы, что позволяет создавать модели, довольно точно предсказывающие вторичные свойства образца, основываясь на измеренных первичных свойствах.

1.2 Методы снижения размерности исходных данных

Многие современные и широко используемые методы создания многомерных градуировочных моделей предполагают предварительное снижение размерности исходных данных. Снижение размерности подразумевает исключение из матрицы первичных свойств данные, которые не относятся к изменениям исследуемых свойств образца. В терминах хемометрики такое преобразование исходных данных называется декомпозиция. Для одних методов декомпозиция выполняется только для матрицы первичных свойств, другие методы используют при декомпозиции обе матрицы, первичных и вторичных свойств. Однако, в тех случаях, когда применяется декомпозиция — это всегда этап, предшествующий расчету регрессионных коэффициентов [31]. В БИК - спектрометрии широко распространены два метода использующихся для декомпозиции исходных данных - это метод главных компонент и описание спектра с помощью ряда Фурье.

1.2.1 Метод главных компонент

Метод главных компонент (МГК) - широко использующийся инструмент, при построении многомерных градуировочных моделей в БИК - спектроскопии. Метод позволяет разделить матрицу данных на две части: полезные данные и шум.

В первую очередь, метод очень полезен для снижения размерности матрицы спектральных данных, но это не значит, что метод применяется только к матрице X. МГК и различные его вариации, часто используют в различных алгоритмах многомерного анализа не только для матрицы X, но и для многих других данных. Однако на данном этапе изложения, можно ограничиться матрицей спектральных данных. Преимущества использования МГК для других данных будут рассмотрены позже, так как суть метода останется прежней.

Рассмотрим матрицу X. Размерность матрицы [их/], как уже было описано,

означает, что для и-ого количества образцов, была зарегистрирована оптическая плотность на каждой длине волны, количество которых равно /. Набор длин волн, который был выбран для исследования одного материала, может не совпадать с длинами волн, которые необходимо использовать для исследования другого материала. Основным преимуществом МГК как раз и является то, что можно использовать практически неограниченное количество длин волн, и все полученные данные, будут в той или иной степени задействованы в построении многомерной градуировочной модели.

Целью МГК, как уже было сказано, является выделение из заданного массива данных полезной и шумовой составляющей. Другими словами, МГК позволяет выявить скрытые закономерности в данных. Основным предположением, является то, что направления, в которых происходят наибольшие изменения данных, так или иначе связаны с закономерностями изменения данных.

Рассмотрим первый столбец матрицы X, он состоит из значений оптической плотности каждого образца (х15 х2.. .хи) измеренных на длине волны . Эти данные можно представить как точки, расположенные вдоль оси, у которой есть начало, конец, направление и шкала. Подобным образом, можно представить остальные f столбцов матрицы, в результате чего, данные будут представлены в /- мерной системе координат. Такая система координат называется пространством переменных. Однако для данного пространства переменных, размерностью /, существует другое эффективное пространство размерностью А, которое описывает все изменения в данных, а размерность А, зачастую меньше чем / [32]. Обычно размерность нового пространства связана с числом независимых переменных, описывающих все изменения внутри матрицы X.

Похожие диссертационные работы по специальности «Приборы и методы контроля природной среды, веществ, материалов и изделий», 05.11.13 шифр ВАК

Список литературы диссертационного исследования кандидат наук Скутин, Илья Владимирович, 2014 год

Список литературы

1. ГОСТ 13496.4-93. Корма, комбикорма, комбикормовое сырье. Методы определения содержания азота и сырого протеина.

2. ГОСТ 10846-91. Зерно и продукты его переработки. Метод определения белка.

3. ГОСТ Р 52838-2007. Корма. Методы определения содержания сухого вещества

4. ГОСТ 29033-9. Зерно и продукты его переработки. Метод определения жира

5. Stuart В. Infrared spectroscopy: Fundamentals and applications. - Wiley, 2004. — 244 p.

6. Donald L. Pavia, Gary M. Lampman, George S. Kriz. Introduction to Spectroscopy.

- Cengage Learning, 2008. - 752 p.

7. ГОСТ 31683-2012. Зерновое крахмалосодержащее сырье для производства этилового спирта

8. ГОСТ 31795-2012. Рыба, морепродукты и продукция из них. Метод определения массовой доли белка, жира, воды, фосфора, кальция и золы спектроскопией в ближней инфракрасной области.

9. ГОСТ Р 51038-97. Корма растительные и комбикорма. Метод определения содержания обменной энергии с применением спектроскопии в ближней инфракрасной области

10. ГОСТ 30131-96. Жмыхи и шроты. Определение влаги, жира и протеина методом спектроскопии в ближней инфракрасной области

11. ГОСТ Р 50852-96. Комбикорма, комбикормовое сырье. Метод определения содержания сырой золы, кальция и фосфора с применением спектроскопии в ближней инфракрасной области

12. Крищенко В.П. Ближняя инфракрасная спектроскопия. - М.: Интерагротех, 1997.-640 с.

13. Craig A Roberts, Workman J., James В. Near Infrared Spectroscopy in Agriculture -American Society, 2004, 822p

14. Tormod Naes. Multivariate Calibration and Classification, - NIR Publications, 2002

— 352 p

15. Yukihiro Ozaki, W. Fred McClure, Alfred A. Christy. Near Infrared Spectroscopy in Food Science and Technology. - Wiley-Interscience, 2006. - 424 p.

16. Da-Wen. Sun. Infrared Spectroscopy for Food Quality Analysis and Control. - Academic Press, 2009. - 448 p.

17. James Miller, Jane С Miller. Statistics and Chemometrics for Analytical Chemistry. - Prentice Hall, 2011. - 296p.

18. Heinz W. Siesler ,Yukihiro Ozaki, Satoshi Kawata. Near-Infrared Spectroscopy: Principles, Instruments, Applications. - Wiley-VCH, 2002. - 36lp.

19. Massart. Handbook of Chemometrics and Qualimetrics - Elsevier Science, 1998. -876 p.

20. Matthias Otto. Chemometrics- Wiley-VCH, 2007. - 343 p.

21. Peter R. Griffiths, James A. De Haseth Fourier Transform Infrared Spectrometry -Wiley-Interscience, 2007. -560 p.

22. C.A. Ахманов, С.Ю. Никитин Физическая оптика, 2-е издание, Издательство МГУ; "Наука", Москва 2004

23. М. Отго, Современные методы аналитической химии - Техносфера, 2008. -552 с.

24. Юрген Беккер, Спектроскопия - Техносфера, 2009. - 528 с.

25. R.G. Brereton. Chemomrtrics: Data analysis for the laboratory and chemical plant — Wiley, 2003. - 691 p.

26. Розендорн Э.Р., Ефимов H.B., Линейная алгебра и многомерная геометрия — Физматлит, 2005. - 338 - 339 р.

27. А.Г. Дьяконов, Анализ данных, обучение по прецедентам - МГУ, 2010 - 24 -31 с.

28. Alex Smola, Introduction to Machine Learning - Cambridge, 2010 - 11 - 15 p.

29. Г.М. Фихтенгольц, Курс дифференциального и интегрального исчисления. — Физматлит, 2001, 223-224 с.

30. В. Шмидт, Оптическая спектроскопия для химиков и биологов - Техносфера, 2007, стр. 194-196

31. Howard Mark, Jerry Workman, Chemometrics in Spectroscopy. - Academic Press, 2007,81-84 p.

32. Alvin С. Rencher, William F. Christensen, Methods of Multivariate Analysis -Wiley, 2012, p 94-95

33. I.T. Jolliffe, Principal component analysis (springer series in statistics). - Springer, 2002,29-37 p.

34. Aapo Hyvarinen , Juha Karhunen, Erkki Oja Independent Component Analysis -Wiley-Interscience, 2001, 63-65 p.

35. Lars N0rgaard, Rasmus Bro, Soren Balling, Principal Component Analysis and Near Infrared Spectroscopy - Dedicated Analytical Solutions, 2004, 7p

36. Sander Magi, Principal Component Analysis - National Cheng Kung University, 2009, 9-12 p.

37. Samprit Chatterjee, Ali S. Hadi Regression analysis by example - Wiley, 2012, 5866 p.

38. Построение градуировочных моделей в спектральном многокомпонентном анализе / JI.A. Русинов, К.А. Жаринов, А.В. Толстой, В.А. Зубков // Вестник метрологической академии. - 2001. — Вып.7. — с.17 — 30.

39. John P. Hoffmann, Linear Regression Analysis: Assumptions and Applications -Brigham Young University, 2005, 51-57 p.

40. G. David Garson, Multiple Regression - Statistical Associates Publishers, 2014, 6465 p.

41. Age Smilde, Rasmus Bro, Paul Geladi, Multi-way Analysis: Applications in the Chemical Sciences - Wiley, 2004, p 124 -128

42. Brian C. Smith, Infrared Spectral Interpretation: A Systematic Approach - CRC Press, 1998, 195-204 p.

43. John O. Rawlings, Sastry G. Pantula, David A. Dickey, Applied Regression Analysis: A Research Tool - Springer, 1998,479-482 p.

44. Correlated Component Regression: A Prediction, Classification, Methodology for Possibly Many Features/ Jay Magidson // American Statistical Association. - 2010. -p.5-6.

45. James E. Gentle, Wolfgang K. Hardle, Yuichi Mori, Handbook of Partial Least Squares-2010, p. 32-43

46. An Overview of Partial Least Squares / Dante M. Pirouz // The Paul Merage School of Business - 2006, p 8- 9

47. Dimitris Bertsimas, John N. Tsitsiklis, Introduction to Linear Optimization -Athena Scientific, 1997 p. 32 -38

48. Linear Programming Techniques for Regression Analysis / Harvey M. Wagner // Journal of the American Statistical Association, vol. 54 No. 285 (Mar., 1959) pp. 206-212

49. Беклемишев Д.В. Курс аналитической геометрии и линейной алгебры. -Наука, 1978, стр. 333 - 339.

50. S. М. Sinha., Mathematical Programming Theory and Methods - Elsevier ,2005; p.189-192.

51. Д. Бертсекас, Условная оптимизация и методы множителей Лагранжа -Москва «Радио и связь», 1987, с 238 - 241

52. Карманов В. Г., Математическое программирование - «Наука», 1980, с. 59- 61

53. Мицель А.А., Шелестов А.А., Методы Оптимизации программирование -Томск, 2002, с. 79- 82

54. Кузнецов А.В., Холод Н.И., Костевич Л.С., Математическое программирование - «Высшая школа», 1980, с. 52- 79

55. Bruno Henry De Fran, Jeroen Buysse, Philippe Polome, Handbook Of Operations Research In Natural Resources, - Springer, 2007, p. 129-140

56. Lars Norgaard Artificial Neural Networks and Near Infrared Spectroscopy - A case study on protein content in whole wheat grain // A White Paper from FOSS - Issue 1, April 2013, p. 1- 5

57. Roman M. Balabin,Near-Infrared (NIR) Spectroscopy for Biodiesel Analysis // Energy and Fuels Issue 5, May 2011, pp 2373-2382

58. Kevin Gurney, An Introduction to Neural Networks - CRC Press, 1997, p 34 - 39

59. Галушкин А.И., Нейронные сети: основы теории - Горячая Линия - Телеком, 2012, с. 129-140

60. Bishop СМ. Neural Networks for Pattern Recognition. Clarendon Press: Oxford, 1995.

61. Саймон Хайкин, Нейронные сети - Вильяме, 2006, стр 219 -222

62. Каллан Р. Основные концепции нейронных сетей - Вильяме, 2001, с. 51- 62

63. M. L. Ganadu, G. Lubinu, A. Tilocca, Spectroscopic identification and quantitative analysis of binary mixtures using artificial neural networks // Talanta, - 1997 - Vol. 44, №10, p. 1901-1909

64. D. Wienkeb, W.J. Melssenb, L.M.C. Buydens, Plastic material identification with spectroscopic near infrared imaging and artificial neural networks //Analytica Chimica Acta. - 1998.-Vol.361.-p. 161-176.

65. Olivier Devos, Support vector machines (SVM) in near infrared (NIR) spectroscopy: Focus on parameters optimization and model interpretation //Chemometrics and Intelligent Laboratory Systems, Volume 96, Issue 1, March 2009, p. 27-33

66. Li-juan Xie, Yi-bin Ying, Use of near-infrared spectroscopy and least-squares support vector machine to determine quality change of tomato juice, Journal of Zhejiang University . Jun 2009; Issue 10(6), p. 465-471

67. J.A.Fernandez Pierna, V.Baeten ,A.Michotte Renier ,R.P.Cogdill, P.Dardenne, Combination of support vector machines (SVM) and near-infrared (NIR) imaging spectroscopy for the detection of meat and bone meal (MBM) in compound feeds // Journal of Chemometrics, 2004; Vol. 18: p. 341-349

68. Aly Farag and Refaat M Mohamed, Regression Using Support Vector Machines: Basic Foundations - University of Louisville, 2004, p. 3- 6

69. Naiyang Deng, YingjieTian, Chunhua Zhang, Support Vector Machines Optimization Based Theory, Algorithms, and Extensions - CRC Press, 2012, p. 50-53

70. Тоби Сегарн, Программируем коллективный разум — Символ-Плюс, 2008, с 234-238

71. Nianyi Chen ,Wencong Lu, Jie Yang, Guozheng Li, Support Vector Machine In Chemistry - World Scientific Pub Co Inc, 2004, p. 47-48

72. Colin Campbell, Yiming Ying, Learning with Support Vector Machines - Morgan & Claypool Publishers, 2011, p. 2-8

73. Christopher M. Bishop, Pattern Recognition and Machine Learning 1st Edition -Springer, 2007, p - 336-339

74. Lipo Wang, Support Vector Machines: Theory and Applications - Springer, 2005, p. 38 - 40

75. S. Y. Kung, Kernel Methods and Machine Learning - Cambridge University Press, 2014, p 358-362

76. Yizeng Liang, Qing-Song Xu, Support Vector Machines and Their Application in Chemistry and Biotechnology - CRC Press, 2011, p 108-109

77. Richard A. Berk, Statistical Learning from a Regression Perspective - Springer, 2008,p 305-315

78. Support Vector Machines (SVM) as a Technique for Solvency Analysis /Laura Au-ria, Rouslan A. Moro // DIW Berlin Discussion Papers 2008 p 7 -9

79. ASTM standard, E 1655 - 00. Practices for Infrared Multivariate Quantitative Analysis. - 2000. - p. 1-28.

80. Manne R. Analysis of two partial-least-squares algorithms for multivariate calibration // Chemometrics and Intelligent laboratory Systems. - 1987. - Vol. 2. - P. 187197.

81. Руководство по обслуживанию ИнфраЛЮМ ФТ-10. СПб., 2004. - 122с.

82. Fearn Т. Standardization and calibration transfer for near infrared instruments: a review // J. Near Infrared Spectrosc. - 2001. - V.9. - P. 229-244.

83. Демиденко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 1981.-291с.

84. Isaksson Т. and Kowalski В. Piece-wise multiplicative scatter correction applied to near-infrared diffuse transmittance data from meat products // Applied Spectroscopy. - 1993. - Vol. 47, № 6. - P.702-709.

85. Dhanoa M.S. et. al. The link between multiplicative scatter correction (MSC) and standard normal variate (SNV) transformations of NIR spectra // J. Near Infrared Spectrosc., 1994. - Vol.2. - P. 43-47.

86. H.Swierenga, W.G. Haanstra, A.P. de Weijer, and L.M.C. Buydens. Comparison of Two Different Approaches toward Model Transferability in NIR Spectroscopy // Applied Spectroscopy. - 1998. - Vol. 52, № 1. - P. 7-16.

87. O.D. de Noord. The influence of data preprocessing on the robustness and parsimony of multivariate calibration models// Chemom. Intell. Lab. - 1994. - Vol. 23. - P. 65-70.

88. J. Sjoblom, O. Svensson, M. Josefson, H. Kullberg and S. Wold. An evaluation of orthogonal signal correction applied to calibration transfer of near infrared spectra // Chemom. Intell. Lab. - 1998. - Vol. 44. - P. 229-244.

89. Barnes R,J., Dhanoa M.S. and Lister S.J. Standard normal variate transformation and de-trending of near-infrared diffuse reflectance spectra // Applied Spectroscopy. - 1989. - Vol. 43, № 5. - P.772-777.

90. Лебедева B.B. Техника оптической спектроскопии. - 2-е-изд. - М.: Изд-во МГУ, 1986.-352 с.

91. Руководство пользователя программным обеспечением СпектраЛюм/Про, 152.00.00.00.00.РП. СПб., 2004. - 154с.

92. Ридер Р. Принципы анализов с помощью инфракрасных спектров отражения // Автоматизация агрохимических анализов с использованием приборов фирмы «Техникон». Труды ЦИНАО. - М., 1976. - Вып. 7. - С.73-87.

93. Ilya Skutin, Konstantin Zharinov, Maria Sushkova, Mathematical Programming Method as a Means of Calibration of NIR Analyzers // Journal of Chemistry and Chemical Engineering, vol. 6 No 8 (August 2012) pp692-697

94. И. В. Скутин, К. А. Жаринов, Применение методов математического программирования для градуировки БИК-анализаторов // «Научное приборостроение», том 24, №2 (2014), стр. 93-98

95. И. В. Скутин, К. А. Жаринов, Применение методов Фурье преобразования при использовании математического программирования для градуировки БИК анализаторов // «Датчики и системы», №5, 2014, стр. 11-16

96. Bela G. Liptak, Instrument Engineers' Handbook - CRC Press, 2003, p 1374 - 1378

97. M. Лутц, Программирование на Python - Символ-Плюс, 2011

98. Wes McKinney, Python for Data Analysis - O'Reilly Media, 2012

99. Eli Bressert, SciPy and NumPy - O'Reilly Media, 2012

100. Jaan Kiusalaas, Numerical Methods in Engineering with Python - Cambridge University Press, 2013

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.