Продолжаем рассказывать о проектах юных ученых, которые получили поддержку от ККФН.
Сегодня знакомимся с проектом Романа Панова, студента Лесосибирского филиала Университета Решетнева, который предлагает технологию парсинга.
Парсер — это программа или часть программы, которая разбирает текст или данные и превращает их в структуру, понятную компьютеру. Если говорить проще, парсер «читает» сырой текст и извлекает из него нужную информацию.
В своем проекте Роман выделил некоторые проблемы современных парсеров, например, их проблемы в работе с динамическими страницами. У страниц меняется код, данные меняются, а парсер может этого не учесть.
С помощью web-драйверов и нейросети улучшается обработку и анализ данных. Расширяется функциональность, повышается точность и надежность извлечения данных из нерегулярных и сложных страниц.
По итогам работы, Роман внедрил технологию в деятельность риэлторской компании. Так, парсер лучше анализирует блоги, социальные сети, чаты, сайты с объявлениями. Помимо анализа недвижимости, парсер может быть адаптирован к решению задач в других областях.
Поддерживаем науку, гордимся юными изобретателями.
