Построение сетевой модели новостного веб-контента с использованием метода для определения плагиата - polpoz.ru o_O
Главная
Поиск по ключевым словам:
страница 1
Похожие работы
Название работы Кол-во страниц Размер
Модуль Adguard для Traffic Inspector Модуль фильтрации рекламы, социальных... 1 19.22kb.
«Построение двухфакторного эксперимента с использованием квадратичной... 2 327.76kb.
Конкурс контента правила и условия проведения конкурса идей контента... 1 78.49kb.
Построение приложений Windows Phone 7 с использованием продуктов... 12 464.38kb.
Мульти-агентная система поиска в разнородных базах данных 1 87.38kb.
Получение практических навыков работы с электронными таблицами ms... 1 151.44kb.
9 Служба Веб 1 128.94kb.
Модели дискретных каналов связи Михаил Владимирович Марков 1 150.93kb.
Что такое сетевой маркетинг? 1 356.43kb.
В. К. Финн Своевременные замечания о дсм-методе автоматического порождения... 1 447.9kb.
Лабораторная работа №5 Построение модели перцептрона Цель работы... 1 63.86kb.
Занятие по развитию речи с использованием наглядного моделирования... 1 29.83kb.
1. На доске выписаны n последовательных натуральных чисел 1 46.11kb.

Построение сетевой модели новостного веб-контента с использованием метода для определения - страница №1/1

Построение сетевой модели новостного веб-контента с использованием метода для определения плагиата
Вечур Александр Владимирович, Ляпота Виталий Николаевич, Суяргулова Евгения Басировна

Харьковский национальный университет радиоэлектроники

Харьков, Украина

s_yv_b@mail.ru

Исследования данной работы посвящены структурированию новостного веб-контента. Для решения поставленной задачи используются методы TextMining и кластеризации.

При современных объемах новостного контента разделения новостных сообщений в соответствии с освещаемыми ими событиями оказывается не достаточно для удобной навигации пользователя по новостному контенту. В связи с этим актуальность приобрели разработки связанные с более совершенной обработкой новостного веб-контента. В их число входят фильтры, очищающие контент от не несущих дополнительной информации сообщений [1]. Так же к ним относятся и системы формирования новостных выпусков, выполняющие ранжирование как новостных сообщений посвященных одному и тому же событию, так и различных событий, таким образом, чтоб пользователь мог сразу увидеть наиболее интересные сообщения о наиболее важных и актуальных событиях [2].

Целью данной работы является предложить метод автоматической обработки текстов новостных сообщений, расширяющий возможности создания систем гибкого и удобного для пользователя просмотра новостного веб-контента. Задача данной статьи: оценить пригодность предлагаемой сетевой модели новостного контента для решения классической задачи кластеризации новостей.

В данной работе предлагается использовать методику поиска плагиата (описанную в [3]) для построения сетевой структуры новостного web-контента. Так же проводится сравнительный анализ применения этой методики и кластеризации новостного web-контента с помощью одной из модификаций алгоритма CMU (описанной в [4]). Подходы сравниваются по результатам обработки новостных сообщений из коллекции ROMIP. Оба метода обработки новостного web-контента используют стеминг текстов новостных сообщений, а для сравнения текстов к результатам стеминга применяется метрика TF*IDF, что дает основания для сравнения этих методов. Для сравнения подходов к сетевой структуре, полученной в результате применения метода поиска плагиата, применяется метод кластеризации аналогичный методу применяемому в [4]. Проведенный эксперимент показал некоторое преимущество применения методики поиска плагиата описанной в [3] перед алгоритмом описанным в [4]. Кроме того, что предлагаемая в работе методика построения сети новостных сообщений может быть применена в качестве предварительного этапа для классической кластеризации новостных сообщений, она может служить предобработкой для множества других способов структурирования новостного web-контента, основанных на анализе представляющей его сети.

В работе предлагается представление новостного веб-контента в виде сети узлами, которой являются сообщения, а связями тематическая схожесть их частей. Сеть построена по методологии поиска плагиата. Проводится сравнение возможной кластеризации новостей представленных в виде узлов полученной сети с кластеризацией тех же новостей полученной с помощью одной из модификаций алгоритма CMU. Предлагаемая сеть призвана обеспечить гибкую навигацию по новостному веб-контенту, и является альтернативным способом его структурирования.



Литература

1. Ландэ Д.В. Подход к выявлению дублирования сообщений в новостных информационных потоках. Труды Восьмой Всероссийской научной конференции (RDCL’2006). - С. 115-119

2. Зевайкин А.Н., Формирование выпуска новостей на основе автоматического анализа новостных сообщений. Сборник работ научных стипендиатов Яндекс Интернет-Математика 2005, Ярославль, 2005

3. Antonio Si, Hong Va Leong, Rynson W. H. Lan. CHECK: A Document Plagiarism Detection System [Электронный ресурс: http://www.cs.cityu.edu.hk/~rynson/papers/sac97.pdf] Заглавие с экрана, доступ свободный.



4. Вечур А.В., Суяргулова Е.Б. Модернизация расчета центроидов в алгоритме CMU. Российский семинар по Оценке Методов Информационного Поиска. Труды РОМИП 2007-2008. Санкт-Петербург: НУ ЦСИ, 2008, 258с.


izumzum.ru