Skip to content
This repository has been archived by the owner on Feb 28, 2024. It is now read-only.

DrunkRussianGun/InformationSearch2021-1

Repository files navigation

Задание №1

  1. Скачать минимум 100 текстовых страниц с помощью краулера.
  2. Записать каждую страницу в отдельный текстовый файл.
  3. Создать файл index.txt в котором хранится номер документа и ссылка на страницу.

Входным аргументом программы должен быть веб-адрес страницы.

Ссылки с первой страницы ведут на другие, которые также скачиваются и заносятся в файл index.txt. Если на первой странице не набралось достаточного количества страниц (100), то операция повторяется для дочерних страниц первой.

Каждая страница должна содержать не менее 1000 слов.

Задание №2

  1. Из сохраненных документов выделить отдельные слова (токенизация).
  2. Лемматизировать токены (допускается использование сторонних библиотек, устно могу спросить какие есть способы для лемматизации).

Русский язык обязателен.

Задание №3

  1. Создать инвертированный список терминов (индекс).

  2. Реализовать булев поиск по построенному индексу (т.е. вводится выражение содержащее слова с тремя логическими И, ИЛИ, НЕ, по которому выдается список документов, содержащий данное выражение).
    Примеры:

    • str1 & str2 | str3
    • str1 & !str2 | !str3
    • str1 | str2 | str3
    • str1 | !str2 | !str3

Задание №4

Для каждого cкачанного документа из задания №1:

  1. Рассчитать IDF и TF–IDF каждого токена в каждом документе.
  2. Рассчитать IDF и TF–IDF каждой леммы в каждом документе.

Задание №5

Разработать поисковую систему на основе векторного поиска по построенному индексу.

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Packages

No packages published

Languages