Задание №1

Скачать минимум 100 текстовых страниц с помощью краулера.
Записать каждую страницу в отдельный текстовый файл.
Создать файл index.txt в котором хранится номер документа и ссылка на страницу.

Входным аргументом программы должен быть веб-адрес страницы.

Ссылки с первой страницы ведут на другие, которые также скачиваются и заносятся в файл index.txt. Если на первой странице не набралось достаточного количества страниц (100), то операция повторяется для дочерних страниц первой.

Каждая страница должна содержать не менее 1000 слов.

Задание №2

Из сохраненных документов выделить отдельные слова (токенизация).
Лемматизировать токены (допускается использование сторонних библиотек, устно могу спросить какие есть способы для лемматизации).

Русский язык обязателен.

Задание №3

Создать инвертированный список терминов (индекс).
Реализовать булев поиск по построенному индексу (т.е. вводится выражение содержащее слова с тремя логическими И, ИЛИ, НЕ, по которому выдается список документов, содержащий данное выражение).
Примеры:
- str1 & str2 | str3
- str1 & !str2 | !str3
- str1 | str2 | str3
- str1 | !str2 | !str3

Задание №4

Для каждого cкачанного документа из задания №1:

Рассчитать IDF и TF–IDF каждого токена в каждом документе.
Рассчитать IDF и TF–IDF каждой леммы в каждом документе.

Задание №5

Разработать поисковую систему на основе векторного поиска по построенному индексу.

Name		Name	Last commit message	Last commit date
Latest commit History 79 Commits
.idea		.idea
booleansearch		booleansearch
common		common
crawling		crawling
indexing		indexing
tfidf		tfidf
tokenization		tokenization
vectorsearch		vectorsearch
work		work
.gitignore		.gitignore
COPYRIGHT.txt		COPYRIGHT.txt
LICENSE.txt		LICENSE.txt
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Задание №1

Задание №2

Задание №3

Задание №4

Задание №5

About

Releases

Packages

Languages

License

DrunkRussianGun/InformationSearch2021-1

Folders and files

Latest commit

History

Repository files navigation

Задание №1

Задание №2

Задание №3

Задание №4

Задание №5

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages