Сбор новостей с основных лент
Яндекс-новости, Агентство Рейтер, Агентство Синьхуа, Иранское национальное агентство.
Цели проекта: Анализ новостной мировой повестки, выявление и классификация значимых событий, прогнозирование неизбежно следующих за ними событий.
ТЕРМИНЫ
Данные - тексты (в основном заголовки или анонсы самых важных новостей) с главных страниц сайтов важнейших новостных агенств мира.
Слова - слова текстов на русском языке, за исключением служебных слов.
Лексемы - корни слов в нижнем регистре.
Ключевые слова - вводятся вручную аналитиком в таблицу keyword вместе с коэффициентом важности k.
Вес слова - характеризуется частотностью встречаемости слова в тексте, если слово является ключевым, вес вычисляется, как max(частотности) * k.
ЭТАПЫ ПРОЕКТА
- Сбор данных.
- Статистико-лингвистический анализ текстовых данных.
- Машинное обучение для автоматической классификации событий.
- Прогнозирование последующих событий.
Источник: ЦВПИ
Автор: Александр Немченко
Дата публикации: 11 августа 2022 г.
Автор: Александр Немченко
Дата публикации: 11 августа 2022 г.