Preview

СибСкрипт

Расширенный поиск

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ СЛАБОСТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ, УЧАСТВУЮЩИХ В НАУЧНО-ОБРАЗОВАТЕЛЬНОМ ПРОЦЕССЕ

Аннотация

Ежедневно в научно-образовательном процессе любого учебного учреждения используется множество слабоструктурированных документов. Одним из подходов, позволяющих единообразно обрабатывать такие документы, является работа не с самими документами, а с их метаданными. Однако эффективность такого подхода в случае большого числа слабоструктурированных документов может быть достигнута лишь при наличии эффективного, с точки зрения использования вычислительных ресурсов, механизма автоматического извлечения метаданных из содержимого документов, который можно разбить на три этапа: определение класса документа; кластеризация документов, класс которых не удалось определить; извлечение метаданных из документа уже известного класса. Данная работа посвящена поиску возможных решений на первом этапе – автоматической классификации слабоструктурированных документов. В работе введено понятие слабоструктурированного документа, представлены критерии эффективности методов классификации, проведен сравнительный анализ методов в соответствии с первыми пятью критериями. Для оценки по дополнительно разработанным двум критериям были реализованы методы: многослойные нейронные сети, Роккио, k-ближайших соседей. Результаты проведенного анализа показали, что наибольшую эффективность при решении данной задачи с точки зрения соотношения точность/скорость показывают нейронные сети, но точность классификации на слабоструктурированных документах не является достаточной. Выдвинута гипотеза, что точность методов можно повысить, используя при классификации не только ключевые слова, но и известную структуру документа.

Об авторах

А. М. Гудов
Кемеровский государственный университет
Россия
Гудов Александр Михайлович – доктор технических наук, доцент, заведующий кафедрой ЮНЕСКО по новым информационным технологиям КемГУ


С. Ю. Завозкин
Кемеровский государственный университет
Россия
Завозкин Сергей Юрьевич – кандидат технических наук, доцент кафедры ЮНЕСКО по новым информационным технологиям КемГУ


В. А. Шевнин
Кемеровский государственный университет
Россия
Шевнин Василий Алексеевич – аспирант кафедры ЮНЕСКО по новым информационным технологиям КемГУ


Список литературы

1. Галушкин А. И. Синтез многослойных систем распознавания образов. М.: Энергия. 1974.

2. Гудов А. М., Завозкин С. Ю., Меньшиков А. С. Модуль автоматического определения метаданных документа в системе электронного документооборота вуза // Вестник КемГУ. 2006. № 1(25). С. 31 – 36.

3. Гудов А. М., Завозкин С. Ю., Шевнин В. А. Автоматическое извлечение метаданных из слабоструктурированных документов, участвующих в научно-образовательном процессе // Информационные технологии и математическое моделирование (ИТММ-2013): материалы XII Всероссийской научно-практической конференции с международным участием (им. А. Ф. Терпугова), 29 – 30 ноября 2013 г. Ч. I.

4. Кристофер Д. Маннинг, Правхакар Рагхаван, Хайнрих Шютце. Введение в информационный поиск [пер. с англ.] М.: И. Д. Вильямс, 2011.

5. Лебедев А. Словарь русского языка ispell // Кафедра физики полупроводников. 2014. Режим доступа: scon155.phys.msu.su/~swan/orthography.html (дата обращения: 30.01.2014).

6. Пескова О. В. Методы автоматической классификации текстовых электронных документов // НТИ. (Серия 2: Информационные процессы и системы). 2006. № 3. С. 13 – 20.

7. Толчеев В. О. Модифицированный и обобщенный метод ближайшего соседа для классификации библиографически текстовых документов // Заводская лаборатория, диагностика материалов. 2009. Т. 75. № 7. С. 63 – 70.


Рецензия

Для цитирования:


Гудов А.М., Завозкин С.Ю., Шевнин В.А. АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ СЛАБОСТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ, УЧАСТВУЮЩИХ В НАУЧНО-ОБРАЗОВАТЕЛЬНОМ ПРОЦЕССЕ. Вестник Кемеровского государственного университета. 2014;(4-3):43-47.

For citation:


Gudov A.M., Zavozkin S.Yu., Shevnin V.A. AUTOMATIC CLASSIFICATION OF SEMISTRUCTURED DOCUMENTS IN SCIENTIFIC AND EDUCATIONAL PROCESS. SibScript. 2014;(4-3):43-47. (In Russ.)

Просмотров: 446


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2949-2122 (Print)
ISSN 2949-2092 (Online)