Сбор новостей с основных лент

Яндекс-новости, Агентство Рейтер, Агентство Синьхуа, Иранское национальное агентство.

Цели проекта: Анализ новостной мировой повестки, выявление и классификация значимых событий, прогнозирование неизбежно следующих за ними событий.

ТЕРМИНЫ

Данные - тексты (в основном заголовки или анонсы самых важных новостей) с главных страниц сайтов важнейших новостных агенств мира.

Слова - слова текстов на русском языке, за исключением служебных слов.

Лексемы - корни слов в нижнем регистре.

Ключевые слова - вводятся вручную аналитиком в таблицу keyword вместе с коэффициентом важности k.

Вес слова - характеризуется частотностью встречаемости слова в тексте, если слово является ключевым, вес вычисляется, как max(частотности) * k.

ЭТАПЫ ПРОЕКТА

  1. Сбор данных.
  2. Статистико-лингвистический анализ текстовых данных.
  3. Машинное обучение для автоматической классификации событий.
  4. Прогнозирование последующих событий.

  Источник: ЦВПИ
  Автор: Александр Немченко
  Дата публикации: 11 августа 2022 г.



<< Вернуться на портал eurasian-defence.ru