Анализ изображений методами машинного обучения для поиска заимствований тема диссертации и автореферата по ВАК РФ 00.00.00, кандидат наук Каприелова Мариам Семеновна

  • Каприелова Мариам Семеновна
  • кандидат науккандидат наук
  • 2025, ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)»
  • Специальность ВАК РФ00.00.00
  • Количество страниц 76
Каприелова Мариам Семеновна. Анализ изображений методами машинного обучения для поиска заимствований: дис. кандидат наук: 00.00.00 - Другие cпециальности. ФГАОУ ВО «Московский физико-технический институт (национальный исследовательский университет)». 2025. 76 с.

Оглавление диссертации кандидат наук Каприелова Мариам Семеновна

Введение

Глава 1. Обзор литературы

1.1. Обработка изображений

1.2. Системы поиска заимствований

1.3. Поиск почти-дубликатов рукописных работ

1.4. Поиск заимствований в текстах рукописных работ

1.4.1. Наборы данных для распознавания рукописного текста

Глава 2. Метод поиска заимствованных изображений, созданных без

использования автоматических систем отрисовки

2.1. Математическая постановка задачи

2.2. Предлагаемое решение

2.3. Данные, использованные на этапе обучения и прототипирования

2.4. Построение векторного представления изображения

2.5. Поиск наиболее близких кандидатов

2.6. Точное сравнение наиболее близких изображений

2.7. Эксперименты

2.7.1. Метрики

2.7.2. Данные

2.7.3. Качество работы системы

2.7.4. Производительность системы

Глава 3. Метод поиска почти-дубликатов рукописных работ

3.1. Математическая постановка задачи

3.2. Предлагаемое решение

3.3. Данные, использованные на этапе обучения и прототипирования

3.4. Построение векторного представления изображения

3.5. Поиск наиболее близких кандидатов

3.6. Точное сопоставление кандидатов для обнаружения случаев почти полного дубликата рукописной работы

3.7. Эксперименты

3.7.1. Данные

3.7.2. Метрики

3.7.3. Качество поиска

3.7.4. Производительность системы

Глава 4. Метод поиска заимствований в рукописных работах

4.1. Математическая постановка задачи

4.2. Предлагаемое решение

4.3. Данные, использованные на этапе обучения и прототипирования

4.4. Предобработка рукописных сочинений

4.5. Перевод текста из изображения рукописного сочинения в машиночитаемый текст

4.6. Поиск кандидатов и сопоставление текстов

4.7. Эксперименты

4.7.1. Данные

4.7.2. Метрики

4.7.3. Качество поиска

4.7.4. Производительность поиска

Заключение

Список оотовных обозначений

Список иллюстраций

Список таблиц

Список опубликованных работ соискателя по теме диссертации

Список литературы

Рекомендованный список диссертаций по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Введение диссертации (часть автореферата) на тему «Анализ изображений методами машинного обучения для поиска заимствований»

Введение

Введение. Задача выявления плагиата в академических и учебных работах в течение последних десятилетий приобрела высокую актуальность. Современные информационные технологии существенным образом упростили поиск текста и его копирование. Кроме того, уровень развития технических средств обработки изображений позволяет легко фальсифицировать результаты научных исследований или нарушать принципы академической этики иным способом.

Существует множество технических средств обработки изображений, которые позволяют быстро и эффективно вносить незначительные изменения в изображения и выдавать их за оригинальные результаты исследований, не опасаясь обвинений в плагиате. Значительный рост количества случаев плагиата в академических работах оказался одним из негативных результатов технологического развития [1, 2].

В настоящее время значительная часть вузов и научных организаций использует системы обнаружения заимствований, позволяющих детектировать нарушения академической этики в текстах работ. Уже разработаны системы, позволяющие обнаруживать многие нарушения академической этики в текстах работ [3], такие как переводные заимствования [4], [5], парафраз, машинная генерация [6] и многие другие. При этом исследования показывают, что привычку копировать чужие тексты без ссылки на источник или копировать готовые работы из интернета обучающиеся приобретают еще в школе и «приносят с собой» в вузы, а затем и в свою профессиональную деятельность [7].

Существенным отличием среднего образования от высшего является использование массовое рукописных форм учебных работ. Кроме того, в последнее время активное развитие онлайн-образования приводит к тому, что зачастую школьникам предлагается отправлять преподавателю отсканированные или сфотографированные рукописные работы.

Очевидно, что в таких условиях невозможно обеспечивать прежний уровень контроля преподавателей за процессом подготовки работ. В результате некоторые ученики могут попросту переписывать (возможно, частично) работы, выполненной другим человеком. Источниками для списывания могут также служить материалы других школьников, которые выкладывают готовые работы в общий доступ в интернете. У проверяющих преподавателей попросту нет возможности проверять каждую работу школьника на оригинальность, сравнивая ее на наличие заимствований со всеми возможными источниками.

При этом проверка результатов государственных экзаменов в РФ в соответствии с ФГОС требует обязательной проверки работ на заимствования.

Таким образом, в масштабах страны возникает необходимость обработать сотни тысяч работ за ограниченное время. Существование автоматической проверки рукописных работ на наличие заимствований значительно облегчит работу проверяющих.

Проблеме поиска заимствований в области изображений уделяется гораздо

меньше внимания, чем поиску нарушений в текстах работ. Несмотря на то что изображения составляют значительную часть научных исследований, а иногда являются отражением ключевых результатов, на данный момент не существует эффективной системы распознавания заимствований для этого типа данных. Существование автоматической проверки на наличие заимствованных изображений позволит выявлять нарушения такого рода. Для решения этой проблемы необходимо разработать систему, способную эффективно производить поиск заимствованных изображений по большой коллекции. В данном контексте коллекция - база данных, содержащая миллионы объектов, среди которых требуется произвести поиск.

Цели и задачи диссертационной работы. В работе были поставлены следующие цели:

• Разработать методы и алгоритмы обработки изображений и рукописных работ, позволяющих распознавать заимствованные изображения при поиске по большой коллекции потенциальных источников заимствования.

• Разработать методы и алгоритмы обработки изображений, позволяющих обнаруживать текстовые заимствования в рукописных документах, представленных в виде изображений.

Для достижения поставленных целей решались следующие задачи:

• Исследование и разработка методов построения векторных представлений изображения, универсальных для изображений, принадлежащих разным доменам.

• Исследование и разработка методов поиска ограниченного числа наиболее вероятных источников заимствования.

• Исследование и разработка методов точного сравнения изображений-запросов и изображений-кандидатов для изображений, принадлежащих разным доменам.

• Исследование и разработка методов предобработки изображений рукописных работ и распознавания русского рукописного текста.

• Исследование и разработка методов точного сопоставления распознанных рукописных текстов с целью выявления источника заимствования.

• Сбор и разметка данных с целью проведения вычислительных экспериментов по определению работоспособности реализованных методов.

• Создание специализированной совокупности программных средств и проведение вычислительных экспериментов по определению работоспособности реализованных методов на реальных данных сети Интернет.

Методы исследования. В работе использованы методы цифровой обработки изображений, такие как перевод в черно-белое, сегментация методом порогов,

размытие, сжатие, поворот, отражение, обрезка и другие преобразования, анализа данных (кластеризация, частотный анализ и другие) и машинного обучения (классические методы и методы глубокого обучения, в частности конфронтационные сети (Contrastive learning), обучение метрических векторных представлений (metric learning) и архитектуры типа "Трансформер"). Для реализации методов поиска ограниченного числа наиболее вероятных источников заимствования использовались векторные базы данных FAISS и Annoy, методы квантизации, а также методы, основанные на принципе шинглирования. Для определения работоспособности реализованных методов использовались синтетические данные, полученные путем цифровой обработки изображений, и реальные данные сети Интернет. Кроме того, были собраны специализированные наборы данных, приближенные к реальным, для определения работоспособности реализованных методов поиска почти-дубликатов рукописных работ и поиска заимствований в рукописных текстах. Разработка программного кода производилась на языке программирования Python, с использованием фреймворка для глубокого обучения PyTorch, а так же библиотеки OpenCV, scikit-learn и Pillow.

Основные положения, выносимые на защиту.

• Методы построения векторных представлений изображения, универсальных для изображений, принадлежащих разным доменам.

• Методы поиска ограниченного числа наиболее вероятных источников заимствования.

• Методы точного сравнения изображений-запросов и изображений-кандидатов для изображений, принадлежащих разным доменам.

• Методы предобработки изображений рукописных работ и распознавания русского рукописного текста.

• Методы точного сопоставления распознанных рукописных текстов с целью выявления источника заимствования.

• Технология сбора и разметки данных с целью проведения вычислительных экспериментов по определению работоспособности реализованных методов.

• Новые программные средства для внедрения предложенных методов поиска заимствований.

Научная новизна.

• Предложен новый метод распознавания заимствований для изображений, принадлежащих разным доменам, эффективный при работе с большим количеством потенциальных источников заимствований, пригодный для использования в промышленных системах.

• Предложен новый метод поиска заимствований в рукописных работах, представленных в виде изображений, при работе с большим количеством потенциальных источников заимствований, пригодный для использования в промышленных системах.

• Создана специализированная совокупность программных средств для внедрения предложенных методов поиска заимствований.

Теоретическая значимость. Разработаны методы на основе машинного обучения (классического компьютерного зрения, глубокого обучения и классических методов машинного обучения), позволяющие с высокой точностью и за приемлемое время производить поиск заимствованных изображений, почти-дубликатов рукописных текстов и заимствований в рукописных текстах.

Практическая значимость. Разработаны системы поиска заимствований для изображений и рукописных текстов и на основе методов машинного обучения и промышленно применимые архитектуры сервисов, позволяющих с высокой эффективностью производить поиск заимствованных изображений, почти-дубликатов рукописных текстов и заимствований в рукописных текстах. Разработанные архитектурные решения требуют минимальных затрат на вычислительные мощности при показателях качества, удовлетворяющих критериям промышленной применимости. Так, системы поиска заимствованных избражений и поиска заимствований в рукописных текстах не требуют GPU. В системе поиска почти-дубликатов рукописных работ GPU необходима только для работы последнего модуля, имеющего ограниченную вычислительную нагрузку. Результаты, изложенные в диссертации, используются в системе "Антиплагиат".

Степень достоверности и апробация работы. Результаты экспериментальных исследований подтверждают применимость реализованных методов для решения практических задач на реальных данных сети Интернет, достоверность результатов обеспечивается воспроизводимостью проведенных экспериментов, внедрением разработанных методов в работу промышленной системы. Основные результаты диссертации докладывались на следующих конференциях:

• 20-я Всероссийская конференция с международным участием «Математические методы распознавания образов» (ММРО-2021), Москва, 2021;

• 14-я Международная конференция "Интеллектуализация обработки информации Москва, 2022;

• 8th European Conference on Academic Integrity and Plagiarism 2022, Porto, 2022;

• Международная конференция "Dialogue 2023 Москва, 2023;

• 9th European Conference on Ethics and Integrity in Academia 2023, Derby, 2023;

• 35th FRUCT conference, Tampere, 2024;

Публикации автора по теме диссертации. Материалы диссертации были опубликованы в 4 научных журналах, индексируемых в МБ Д. Получено два

свидетельства о регистрации программы для ЭВМ и одно свидетельство о регистрации базы данных.

Личный вклад автора.Исследования, разработка и реализация первой версии метода поиска заимствованных изображений и метода поиска заимствований в рукописных текстах велась совместно с Е.Л.Финогеевым, вклад автора был определяющим. Устранение ряда технических недоработок и дальнейшая оптимизация промышленного решения производилась автором лично. Исследования, разработка и реализация метода поиска почти-дубликатов рукописного теста производились автором лично. Подготовка к публикации полученных результатов проводилась совместно с соавторами, причём вклад диссертанта был определяющим.

Структура и объем работы. Диссертация состоит из введения, 4 глав, заключения и библиографии. Общий объём диссертации 76 страниц, из них 76 страниц текста, включая 8 рисунков и 9 таблиц. Библиография включает 84 наименований на 6 страницах.

Краткое содержание работы по главам. В главе 1 производится обзор литературы, в частности, существующих подходов к задаче поиска заимствованных изображений, задаче поиска почти-дубликатов рукописных изображений и задаче поиска заимствований в рукописных текстах.

В главе 2 предложен метод поиска заимствованных изображений, созданных без использования автоматических систем отрисовки, эффективный для работы с большими коллекциями документов.

В главе 3 предложен метод поиска почти-дубликатов рукописных работ, эффективный для работы с большими коллекциями документов.

В главе 4 предложен метод поиска заимствований в рукописных работах, оптимизированный для работы с большими наборами данных.

Глава 1 Обзор литературы

1.1. Обработка изображений

Компьютерное зрение и обработка изображений традиционно являются одной из наиболее активно исследуемых областей машинного обучения. Область исследований, относящаяся к методам компьютерного зрения необычайно широка, разнообразна и имеет множество прикладных применений. Большинство прикладных задач этой области направлены на воспроизведение возможностей человеческого зрения, таких как распознавание лиц, символов, распознавание движений и другие. Основными задачами компьютерного зрения можно назвать распознавание, классификацию и детекция объектов, сегментацию. С развитием генеративных моделей значительная часть исследований в области компьютерного зрения и обработки изображений стала посвящаться генерации изображений с помощью моделей глубокого обучения. Стоит отметить, что генеративные модели используются не только для решения задачи генерации правдоподобных изображений, но и для множества прикладных задач. Например, для проблемы восстановления изображений или для дорисовки или удаления нежелательных объектов с изображения.

Методы обработки изображений были и остаются одной из активно исследуемых проблем в области машинного обучения. Развитие этой области от классических методов обработки изображений до использования нейронных сетей представляет собой интересную эволюцию в области интеллектуальной обработки информации.

Обработка изображений имеет огромное количество прикладных применений в таких областях как улучшение качества изображений, распознавание образов, эффективное преобразование с целью хранения и передачи и многих других [8]. В области обработки изображений можно условно выделить несколько этапов:

• Предобработка изображения. На этом этапе производятся небольшие, но оказывающее существенное влияние на конечный результат преобразования. Примером таких преобразований могут служить сглаживание или увеличение контраста. Выбор методов предобработки производится исходя из специфики решаемой задачи и качества исходных данных. Стоит отметить, что на этом этапе чаще используются методы классического компьютерного зрения.

• Перевод изображения в признаковое пространство. На этом этапе производится переход от изображения к его представлению, содержащему наиболее значимые для задачи признаки. Такой переход может производиться как путем построения ембеддинга методами классического компьютерного зрения, так и с помощью нейросетей. Выбор определенного способа построения векторного представления зависит от специфики решаемой задачи. Так, для решения задачи определения степени схожести

изображений скорее всего наиболее оптимально будет использовать часть нейросетевой архитектуры, обученной с помощью подхода метрического обучения (Metric Learning). Стоит отметить, что выбор наиболее подходящего преобразования изображения на этом этапе во многом определяет успех в решении поставленной задачи.

• Непосредственное решение поставленной задачи. На этом этапе могут также использоваться различные подходы, от основанных на классических методах обработки изображений до сложных систем глубокого обучения.

В зависимости от специфики решаемой задачи и методов ее решения, некоторые из этих этапов могут объединяться в один.

За годы исследований подходы к обработке изображений прошли длинный путь развития от классических алгоритмов компьютерного зрения, до нейросетевых методов, наиболее эффективных для большинства задач и широко используемых на данный момент.

Начиная с 1960-х годов, обработка изображений и компьютерное зрение были связаны с использованием классических методов обработки изображений, таких как фильтрация, выделение граней, сопоставление шаблонов и статистические подходы. Эти методы были основаны на математических моделях и логике, и хотя они эффективно работали на некоторых задачах, они имели ограничения в обработке сложных данных, включая вариабельность освещения, шум и неоднородность фона. Классическое компьютерное зрение - это область исследования, связанная с разработкой методов и технологий для анализа, обработки и понимания изображений и видео с использованием компьютеров. Изначально, задачи обработки изображений решались математическими методами, составляющими основу классического компьютерного зрения. Например [9], задача распознавания образов решалась с помощью линейных или квадратичных дискриминантов или методом k ближайших соседей с ядерной оценкой плотности.

Период развития технологий классического компьютерного зрения можно условно разделить на несколько этапов.

• 30-е - 50-е годы XX века: В этот период были созданы первые устройства для обработки изображений, включая примитивные сканеры и камеры, а также основаны первые методы обработки и анализа изображений.

• 60-е - 70-е годы: В это время были разработаны технологии для распознавания объектов, определения формы и распознавания паттернов на изображениях.

• 80-е - 90-е годы: В это время были разработаны более мощные алгоритмы и методы компьютерного зрения, включая методы для сегментации изображений, выделения признаков, обнаружения объектов, и т.д. Также были созданы первые системы распознавания лиц и объектов на изображениях.

• В 1990-х годах методы машинного обучения, такие как метод опорных векторов и ансамблирование деревьев, начали применяться к задачам

компьютерного зрения. Эти методы позволили эффективно извлекать классифицировать объекты, но требовали ручного создания большинства признаковых дескрипторов.

Затем группа авторов революционной работы [10] представила механизм обратного распространения ошибки, который послужил основой для обучения нейросетей. С этого момента началось активное развитие и исследование подходов глубокого обучения, в частности методов обработки изображений.

История использования сверточных нейронных сетей для обработки изображений началась в 1980-х годах, когда впервые были предложены идеи о применении алгоритмов сверточных сетей для распознавания образов. После появления алгоритма обратного распространения ошибки началась эпоха развития нейросетевых архитектур. За годы исследований нейросети "эволюционировали" от линейных архитектур с одним или несколькими скрытыми слоями до сложных систем, состоящих из нескольких нелинейных блоков. Новые архитектуры включали в себя все большее количество параметров, что оказывало влияние на объем ресурсов, требуемых для обучения и работы с моделями. Одним из первых значительных достижений в этой области стала работа Яна Лекуна, Юргена Шмидхубера и Давида Эрхарта о LeNet-5, сверточной нейронной сети, специально разработанной для распознавания рукописных цифр. В следующие десятилетия сверточные нейронные сети продолжали развиваться, но они сталкивались с ограничениями в вычислительных мощностях и доступных для обучения данных. Однако, с развитием графических процессоров и появлением больших наборов данных сверточные нейронные сети получали все большее распространение. Стоит отметить, что значительным прорывом в области компьютерного зрения стало появление сверточных нейросетей, а позже и 3D сверток. Этот вид архитектуры сделал возможным решение многих задач с ранее не достижимым качеством. Интересно, что развитие глубоких архитектур ставило перед научным сообществом новые вызовы. Например, появились проблемы взрывающихся и затухающих градиентов, решения которых были успешно найдены, что стимулировало дальнейшее развитие архитектур нейросетей. Также тенденция к увеличению количества параметров нейросети поставила вопрос оптимизации количества вычислительных операций. Одной из архитектур, призванных решать эту проблему является MobileNet [11]. Авторы этой работы впервые представили пространственно разделимые свертки, позволяющие существенно сократить количество вычислительных операций.

Особенно значительным был успех сверточных нейронных сетей в области компьютерного зрения. В 2012 году сверточная нейронная сеть под названием AlexNet [12] выиграла соревнование ImageNet Large Scale Visual Recognition Challenge, показав результат лучше, чем остальные методы распознавания изображений в несколько раз. После этого сверточные нейронные сети стали основным инструментом для решения задач компьютерного зрения, таких как распознавание объектов, классификация изображений, семантическая сегментация и многие другие. Со временем значительная часть работы с

изображениями стала производится с использованием нейросетей, как это предсказали в своем обзоре [13]. Сверточные нейронные сети продолжают демонстрировать впечатляющие результаты на различных задачах обработки изображений. Их использование распространяется на такие области, как медицинская диагностика, автоматическое распознавание лиц, анализ снимков со спутников, улучшение качества изображений и многие другие. Таким образом, сверточные нейронные сети стали неотъемлемой частью области компьютерного зрения и обработки изображений, привнося огромный вклад в достижения в этой области. При этом классические алгоритмы также активно используются для решения многих задач. Например, долгое время классические методы решения задачи сопоставления ключевых точек по качеству не уступали нейросетевым методам [14].

Последней тенденцией в обработке изображений стало использование архитектур типа Трансформер [15]. Отличительной чертой архитектуры Трансформер является наличие механизма внимания, позволяющего искать наиболее значимые участки во входных данных. Изначально эта архитектура была разработана для обработки текстовых данных, так как структура моделей такого типа позволяет более эффективно работать с последовательностями. Однако, позже выяснилось, что архитектуры такого типа позволяют достичь более высокого качества для большинства проблем компьютерного зрения. Использование архитектур на базе Трансформеров для обработки изображений имеет потенциал для улучшения качества обработки изображений, особенно в сферах, где необходимо учитывать контекст и взаимодействие различных частей изображения. Основной особенностью архитектур такого типа является то, что Трансформеры обычно работают не с исходными изображениями, а с их векторными представлениями. Такая предобработка изображений может быть произведена как с помощью классических методов компьютерного зрения, так и с помощью методов, основанных на подходах глубокого обучения. Одним из достоинств архитектуры Трансформер, безусловно, является возможность работать с мультимодальными данными, например рассматривать изображение вместе с его текстовым описанием или другими признаками. Тем не менее, данная область все еще находится в стадии активного исследования, и многие вопросы, связанные с использованием Трансформеров для обработки изображений, требуют дальнейшего изучения. Так, архитектуры такого типа хоть и показывают выдающиеся результаты на большинстве задач компьютерного зрения, но требуют большое количество вычислительных ресурсов для обучения и работы. Этот факт приводит нас к необходимости исследовать методы оптимизации процесса тренировки и инференса для Трансформеров и их производных. Распространенной практикой, облегчающей процесс обучения модели, является использование предобученных весов и последующая их оптимизация для решения конкретной задачи. Такой подход дает возможность не только значительно снизить затраты на обучение модели "с нуля", но и косвенно использовать для решения задачи большее количество данных.

Отдельной ветвью развития обработки изображений стоит выделить генеративные подходы к модификации изображений. Существует множество видов архитектур, позволяющих генерировать или дополнять уже существующие изображения. В последнее время использование генеративных моделей с целью обработки изображений набирает популярность. Однако, подробно рассматривать эти подходы в рамках этой работы мы не будем.

Стоит также выделить тенденцию, набирающую популярность последние несколько лет - большие визуально-языковые модели [16, 17]. Первой работой в этой области стала сеть Фламинго [18], авторы которой предложили интегрировать визуальные и текстовые признаки на этапе кросс-аттеншена. Подходы из этой группы объединяют в себе три основных принципа:

• Использование больших объемов данных для тренировки

• Мультимодальность

• Использование нескольких видов архитектур в рамках одного пайплайна. Решения такого типа отличаются широким спектром решаемых задач от классификации и распознавания текста до ответов на вопросы на основании визуальной информации, а также возможностью работать в режиме, когда при оценке работы системы встречаются ситуации, которых не было в процессе обучения (zero-shot) или такая ситуация встречалась не более одного раза (one-shot). Одной из наиболее известных работ в этой области является CLIP [19]. Авторы предложили тренировать текстовый и визуальный энкодер вместе, тем самым обучая нейросеть сопоставлению текстовых и визуальных данных.

Иногда в пайплайны объединяют несколько абсолютно разных по архитектуре моделей. Примерами таких моделей могут послужить системы, используемые для восстановления 3D объекта по его фото, в которых объединяются модели сегментации и диффузионные модели [20], и многие другие.

Похожие диссертационные работы по специальности «Другие cпециальности», 00.00.00 шифр ВАК

Список литературы диссертационного исследования кандидат наук Каприелова Мариам Семеновна, 2025 год

Список литературы

1. Никитов Артемий Владимирович, Орчаков Олег Александрович, Чехович Юрий Викторович. Плагиат в работах студентов и аспирантов: проблема и методы противодействия // Университетское управление: практика и анализ. — 2012. — no. 5. — Pp. 61-68.

2. Roig Miguel. Avoiding plagiarism, self-plagiarism, and other questionable writing practices: A guide to ethical writing. — The Office of Research Integrity (ORI), 2015.

3. Kuznetsova Margarita Valer'evna, Bakhteev Oleg Yur'evich, Chekhovich Yury Viktorovich. Methods of cross-lingual text reuse detection in large textual collections // Informatika I Ee Primeneniya [Informatics and Its Applications]. — 2021. — Vol. 15, no. 1. — Pp. 30-41.

4. CrossLang: the system of cross-lingual plagiarism detection / Oleg Bakhteev, Alexandr Ogaltsov, Andrey Khazov et al. // Workshop on Document Intelligence at NeurlPS 2019. — No. 18. — 2019. — P. 1-5.

5. Avetisyan K, Gritsay G, Grabovoy A. Cross-Lingual Plagiarism Detection: Two Are Better Than One // Programming and Computer Software. — 2023. — Vol. 49, no. 4. — Pp. 346-354.

6. Artificially generated text fragments search in academic documents / GM Gritsay, Andrey Valerievich Grabovoy, Aleksandr Sergeevich Kildyakov, Yu V Chekhovich // Doklady Rossijskoj akademii nauk. Matematika, informatika, processy upravlenia. — 2023. — Vol. 514, no. 2. — Pp. 308-317.

7. Чехович ЮВ, Беленькая ОС. Методика внедрения и использования электронных средств обнаружения заимствований в системе среднего образования//Информатика и образование. — 2021. — no. 10. — Pp. 5-14.

8. Huang Thomas S, Schreiber William F, Tretiak Olen J. Image Processing Techniques // Developments in Electronic Imaging Techniques II. — Vol. 32. — 1973. — Pp. 77-82.

9. Egmont-Petersen M., de Ridder D., Handels H. Image processing with neural networks—a review // Pattern Recognition. — 2002. — Vol. 35, no. 10. — Pp. 2279-2301.

10. Rumelhart David E, Hinton Geoffrey E, Williams Ronald J. Learning Internal Representations by Error Propagation, Parallel Distributed Processing, Explorations in the Microstructure of Cognition, ed. DE Rumelhart and J. McClelland. Vol. 1. 1986 // Biometrika. — 1986. — Vol. 71. — Pp. 599-607.

11. Howard Andrew G, Zhu Menglong, Chen Bo et al. Mobilenets: Efficient convolutional neural networks for mobile vision applications. — (дата обращения: 11.09.2023). https://arxiv.org/abs/1704.04861.

12. Krizhevsky Alex, Sutskever Ilya, Hinton Geoffrey E. Imagenet classification with deep convolutional neural networks // Advances in neural information processing systems. — 2012. — Vol. 25. — Pp. 1097-1105.

13. Pal Nikhil R, Pal Sankar K. A review on image segmentation techniques // Pattern recognition. — 1993. — Vol. 26, no. 9. — Pp. 1277-1294.

14. Mishkin Dmytro. Local Features: from Paper to Practice // CVPR. — Computer Vision and Pattern Recognition 2020, 2020. — (дата обращения: 11.09.2023). 'https://local-features-tutorial.github.io/ pdfs/Local_features_from_paper_to_practice.pdf'.

15. Attention is all you need / Ashish Vaswani, Noam Shazeer, Niki Parmar et al. // Advances in neural information processing systems. — Vol. 30. — 2017. — Pp. 5998-6008.

16. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models / Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi // International conference on machine learning. — 2023. — Pp. 19730-19742.

17. Gao Peng, Han Jiaming, Zhang Renrui et al. Llama-adapter v2: Parameter-efficient visual instruction model. — (дата обращения: 11.09.2023). https://arxiv. org/abs/2304.15010.

18. Flamingo: a visual language model for few-shot learning / Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc et al. // Advances in neural information processing systems. — 2022. — Vol. 35. — Pp. 23716-23736.

19. Learning transferable visual models from natural language supervision / Alec Radford, Jong Wook Kim, Chris Hallacy et al. // International conference on machine learning. — 2021. — Pp. 8748-8763.

20. Make-it-3d: High-fidelity 3d creation from a single image with diffusion prior / Junshu Tang, Tengfei Wang, Bo Zhang et al. // Proceedings of the IEEE/CVF International Conference on Computer Vision. — 2023. — Pp. 22819-22829.

21. Shen Helen. Meet this super-spotter of duplicated images in science papers // Nature. — 2020. — Vol. 581. — Pp. 132-136.

22. F. Kaliyadan. Image manipulation and image plagiarism - what's fine and what's not? // ndian J Dermatol Venereol Leprol. — 2017. — Vol. 83. — Pp. 519-521.

23. Srivastava Siddharth, Mukherjee Prerana, Lall Brejesh. imPlag: Detecting image

plagiarism using hierarchical near duplicate retrieval // 2015 Annual IEEE India

Conference (INDICON). — 2015. — Pp. 1-6. / .....

24. Hurtik Petr, Hodakova Petra. FTIP: A tool for an image plagiarism detection //

2015 7th International Conference of Soft Computing and Pattern Recognition (SoCPaR). — 2015. — Pp. 42-47.

25. Akshay S, Chaitanya BN, Kumar Rishabh. Image plagiarism detection using compressed images // IJITEE. — 2019. — Vol. 8. — Pp. 1423-1426.

26. Huang Hailing, Guo Weiqiang, Zhang Yu. Detection of copy-move forgery in digital images using SIFT algorithm // 2008 IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application. — Vol. 2. — 2008. — Pp. 272-276.

27. Lowe David G. Distinctive image features from scale-invariant keypoints // International journal of computer vision. — 2004. — Vol. 60, no. 2. — Pp. 91-110.

28. ORB: An efficient alternative to SIFT or SURF / Ethan Rublee, Vincent Rabaud, Kurt Konolige, Gary Bradski //2011 International conference on computer vision.

— 2011. — Pp. 2564-2571.

29. Speeded-Up Robust Features (SURF) / Herbert Bay, Andreas Ess, Tinne Tuytelaars, Luc Van Gool // Computer Vision and Image Understanding. — 2008. — Vol. 110, no. 3. —Pp. 346-359.

30. Ke Yan, SukthankarR. PCA-SIFT: a more distinctive representation for local image descriptors // Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2004. CVPR 2004. — Vol. 2. — 2004.

— Pp. 506-513.

31. Alahi Alexandre, Ortiz Raphael, Vandergheynst Pierre. FREAK: Fast Retina Keypoint //2012 IEEE Conference on Computer Vision and Pattern Recognition.

— 2012. —Pp. 510-517.

32. Alcantarilla Pablo Fernandez, Bartoli Adrien, Davison Andrew J. KAZE features // Computer Vision-ECCV 2012: 12th European Conference on Computer Vision, Florence, Italy, October 7-13, 2012, Proceedings, Part VI 12. — 2012. — Pp. 214-227.

33. Zhao Kang, Lu Hongtao, Mei Jincheng. Locality Preserving Hashing // AAAI Conference on Artificial Intelligence. — 2014. — Pp. 2988-2992.

34. Perfilieva Irina, Hodáková Petra, Hurtik Petr. Differentiation by the F-transform and application to edge detection // Fuzzy Sets Syst. — 2016. — Vol. 288, no. C.

— P. 96-114.

35. Learning fine-grained image similarity with deep ranking / Jiang Wang, Yang Song, Thomas Leung et al. // Proceedings of the IEEE conference on computer vision and pattern recognition. — 2014. — Pp. 1386-1393.

36. Image plagiarism detection using gan-(generative adversarial network) / Kaustubh Gayadhankar, Rishi Patel, Hrithik Lodha, Swapnil Shinde // ITM Web of Conferences. — Vol. 40. — 2021. — P. 03013.

37. Krishnan Praveen, Jawahar CV. Matching handwritten document images // Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part I 14. — 2016. — Pp. 766-782.

38. Near-duplicate handwritten document detection without text recognition / Oleg Bakhteev, Rita Kuznetsova, Andrey Khazov et al. // Komp'juternaja Lingvistika i Intellektual'nye Tehnologii. — 2021. — Vol. 20. — Pp. 47-57.

39. Pandey Om, Gupta Ishan, Mishra Bhabani SP. A Robust Approach to Plagiarism Detection in Handwritten Documents // Advances in Visual Computing: 15th International Symposium, ISVC 2020, San Diego, CA, USA, October 5-7, 2020, Proceedings, Part II 15. — 2020. — Pp. 682-693.

40. Coquenet Denis, Chatelain Clément, Paquet Thierry. End-to-end handwritten paragraph text recognition using a vertical attention network // IEEE Transactions

on Pattern Analysis and Machine Intelligence. — 2022. — Vol. 45, no. 1. — Pp. 508-524.

41. Scaling handwritten student assessments with a document image workflow system / Vijay Rowtula, Varun Bhargavan, Mohan Kumar, CV Jawahar // Proceedings of the IEEE conference on computer vision and pattern recognition workshops. — 2018. — Pp. 2307-2314.

42. Voigtlaender Paul, Doetsch Patrick, Ney Hermann. Handwriting recognition with large multidimensional long short-term memory recurrent neural networks //2016 15th international conference on frontiers in handwriting recognition (ICFHR). — 2016. — Pp. 228-233.

43. Shonenkov Alex, Karachev Denis, Novopoltsev Maxim et al. StackMix and Blot augmentations for handwritten text recognition. — (дата обращения: 11.09.2023). https://arxiv.org/abs/2108.11667.

44. Handwritten Kazakh and Russian (HKR) database for text recognition / Daniyar Nurseitov, Kairat Bostanbekov, Daniyar Kurmankhojayev et al. // Multimedia Tools and Applications. — 2021. — Vol. 80, no. 21. — Pp. 33075-33097.

45. HWR200: New open access dataset of handwritten texts images in Russian / Ivan Potyashin, Mariam Kaprielova, Yury Chekhovich et al. // Computeational Lingustics and Intellectual Technologies. — 2023. — Pp. 452-459.

46. Marti U.-V. The IAM-database: an English sentence database for offline handwriting recognition // International Journal on Document Analysis and Recognition. — 2002. — Vol. 28, no. 1. — Pp. 114-133.

47. Ground-Truth Production in the Transcriptorium Project / Basilis Gatos, Georgios Louloudis, Tim Causer et al. //2014 11th IAPR International Workshop on Document Analysis Systems. — 2014. — Pp. 237-241.

48. Sânchez Joan Andreu, Romero Veronica, Toselli Alejandro H., Vidal Enrique. ICFHR2016 Competition on Handwritten Text Recognition on the READ Dataset. — 2016.

49. Digital Peter: New Dataset, Competition and Handwriting Recognition Methods / M. B. Potanin, Denis Dimitrov, A. Shonenkov et al. // The 6th International Workshop on Historical Document Imaging and Processing. — 2021. — Pp. 43 -48.

50. School_notebooks (2021). — (дата обращения: 13.10.2023). https://github. com/ai-forever/htr\_datasets/tree/main/school\_notebooks.

51. IDP-forms (2021). — (дата обращения: 13.10.2023). https://github.com/ ai-forever/htr\_datasets/tree/main/IDP-forms.

52. Kohtd: Kazakh offline handwritten text dataset / Nazgul Toiganbayeva, Mahmoud Kasem, Galymzhan Abdimanap et al. // Signal Processing: Image Communication. — 2022. — Vol. 108. — P. 116827.

53. Dalal N., Triggs B. Histograms of oriented gradients for human detection // 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). — Vol. 1. — 2005. — Pp. 886-893.

54. Deep Residual Learning for Image Recognition / Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). — 2016. — Pp. 770-778.

55. Annoy. — Available at: https://github.com/spotify/annoy. — (дата обращения: 13.10.2023).

56. Pinecone. — Available at: https://github.com/pinecone-io. — (дата обращения: 13.10.2023).

57. Douze Matthijs, Guzhva Alexandr, Deng Chengqi et al. The faiss library. — (дата обращения: 11.09.2023). https://arxiv.org/abs/2401.08281.

58. Johnson Jeff, Douze Matthijs, Jégou Hervé. Billion-scale similarity search with GPUs // IEEE Transactions on Big Data. — 2019. — Vol. 7, no. 3. — Pp. 535-547.

59. Melekhov Iaroslav, Kannala Juho, Rahtu Esa. Siamese network features for image matching // 2016 23rd International Conference on Pattern Recognition, ICPR

2016. — 2016. — Pp. 378-383.

60. Tan Mingxing, Le Quoc. Efficientnet: Rethinking model scaling for convolutional neural networks // International conference on machine learning. — 2019. — Pp. 6105-6114.

61. Inception-v4, inception-resnet and the impact of residual connections on learning / Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, Alexander Alemi // Proceedings of the AAAI conference on artificial intelligence. — Vol. 31. —

2017. — Pp. 4278 - 4284.

62. An empirical investigation of digital cheating and plagiarism among middle school students / Hongyan Ma, Eric Yong Lu, Sandra Turner, Guofang Wan // American Secondary Education. — 2007. — Vol. 35. — Pp. 69-82.

63. Ma Hongyan Jane, Wan Guofang, Lu Eric Yong. Digital cheating and plagiarism in schools // Theory Into Practice. — 2008. — Vol. 47, no. 3. — Pp. 197-203.

64. Marasa Nevenka. Cheating of high school students in the virtual Math class // Journal of Educational Sciences\& Psychology. — 2022. — Vol. 12, no. 1. — Pp. 56-65.

65. Image reuse detection in large-scale document scientific collection / Oleg Bakhteev, Yury Chekhovich, Evgeny Finogeev et al. // Concurrent Sessions 12. — 2021. — P. 107.

66. DeTone Daniel, Malisiewicz Tomasz, Rabinovich Andrew. Superpoint: Self-supervised interest point detection and description // Proceedings of the IEEE conference on computer vision and pattern recognition workshops. — 2018. — Pp. 224-236.

67. Key. net: Keypoint detection by handcrafted and learned cnn filters / Axel Barroso-Laguna, Edgar Riba, Daniel Ponsa, Krystian Mikolajczyk Proceedings of the IEEE/CVF international conference on computer vision. — 2019. — Pp. 5836-5844.

68. Bradski G. The OpenCV Library // Dr. Dobb's Journal of Software Tools. — 2000. — Vol. 120. — Pp. 122-125.

69. Patil Bhushan V., Patil Punam R. An Efficient DTW Algorithm for Online Signature Verification //2018 International Conference On Advances in Communication and Computing Technology (ICACCT). — 2018. — Pp. 1-5.

70. Salvador Stan, Chan Philip. Toward accurate dynamic time warping in linear time and space // Intell. Data Anal. — 2007. — Vol. 11, no. 5. — Pp. 561-580.

71. Zheng Ce, Zhu Sijie, Mendieta Matias et al. 3D Human Pose Estimation with Spatial and Temporal Transformers. — 2021. — (дата обращения: 11.09.2023). https://arxiv.org/abs/2103.10455.

72. Yang Sen, Quan Zhibin, Nie Mu, Yang Wankou. TransPose: Keypoint Localization via Transformer. — 2020. — (дата обращения: 11.09.2023). https://arxiv. org/abs/2012.14214.

73. Carion Nicolas, Massa Francisco, Synnaeve Gabriel et al. End-to-End Object Detection with Transformers. — 2020. — (дата обращения: 11.09.2023). https: //arxiv.org/abs/2005.12872.

74. Wu Bichen, Xu Chenfeng, Dai Xiaoliang et al. Visual Transformers: Token-based Image Representation and Processing for Computer Vision. — 2020. — (дата обращения: 11.09.2023). https://arxiv.org/abs/2006.03677.

75. Dosovitskiy Alexey, Beyer Lucas, Kolesnikov Alexander et al. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. — 2020. — (дата обращения: 11.09.2023). https://arxiv.org/abs/2010.11929.

76. LoFTR: Detector-Free Local Feature Matching with Transformers / Jiaming Sun, Zehong Shen, Yuang Wang et al. // 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2021. — Pp. 8918-8927.

77. Syntactic clustering of the web / Andrei Z Broder, Steven C Glassman, Mark S Manasse, Geoffrey Zweig // Computer networks and ISDN systems. — 1997. — Vol. 29, no. 8-13. — Pp. 1157-1166.

78. Broder Andrei Z. On the resemblance and containment of documents // Proceedings. Compression and Complexity of Sequences 1997 (Cat. No. 97TB100171). — 1997. — Pp. 21-29.

79. Manber Udi, Myers Gene. Suffix arrays: a new method for on-line string searches // siam Journal on Computing. — 1993. — Vol. 22, no. 5. — Pp. 935-948.

80. Scikit-learn: Machine Learning in Python / Fabian Pedregosa, Gael Varoquaux, Alexandre Gramfort et al. // Journal of Machine Learning Research. — 2011. — Vol. 12. — P. 2825-2830.

81. Clark Alex. Pillow (PIL Fork) Documentation. — 2015. — (дата обращения: 13.10.2023). https://buildmedia.readthedocs.org/media/ pdf/pillow/latest/pillow.pdf.

82. Text reuse detection in handwritten documents / А Grabovoy, M Kaprielova, A Kildyakov et al. // Doklady Rossijskoj akademii nauk. Matematika, informatika, processy upravlenia. — 2023. — Vol. 514, no. 2. — Pp. 297-307.

83. Gritsay German, Grabovoy Andrey, Chekhovich Yury. Automatic Detection of Machine Generated Texts: Need More Tokens // 2022 Ivannikov Memorial Workshop (IVMEM). — 2022. — Pp. 20-26.

84. Learning local feature descriptors with triplets and shallow convolutional neural networks. / Vassileios Balntas, Edgar Riba, Daniel Ponsa, Krystian Mikolajczyk // Bmvc. — Vol. 1. — 2016. — P. 3.

Обратите внимание, представленные выше научные тексты размещены для ознакомления и получены посредством распознавания оригинальных текстов диссертаций (OCR). В связи с чем, в них могут содержаться ошибки, связанные с несовершенством алгоритмов распознавания. В PDF файлах диссертаций и авторефератов, которые мы доставляем, подобных ошибок нет.