Corpus linguistics models
Корпусная лингвистика
ДЗ1. Провести кластеризацию коллекции текстов 20newsgroup. В качестве признаков текстов использовать TFIDF. Визуализировать результат кластеризации и существующие классы на двумерном графике используя известный Вам метод сокращения размерности.
КР1. Собрать коллекцию текстов на английском языке содержащие как минимум два класса.
КР2. Провести поиск семантически близких текстов (по коллекции 20newsgroup) поступающем запросу. В качестве меры семантической близости использовать два подхода: TFIDF + косинусное расстояние и BM25
КР3. Собрать коллекцию русскоязычных текстов содержащих как минимум два класса. Вычислить перплексию для всех классов отдельно используя параметры языковой модели оцененные по НКРЯ.
Распознавание речи
КР1. При помощи PRAAT записать два гласных звука «А», «И» с параметрами 16 бит, 16 КГц. Определить Форманты этих звуков используя спектр. Изменить ширину окна коротковременного спектра (с 0,001 сек. на 0,01 сек.) и пронаблюдать принцип неопределенности на спектрограмме.
КР2. Сделать звуковую запись с параметрами 16 бит, 16 КГц. Применить коротковременные оконные функции и визуализировать одно окно во временной и частотной области используя Matlab. В частотной области по оси Х – цифровая частота, по оси Y мощность гармоники в децибелах.
КР3. Записать несколько фонем с параметрами 16 бит, 16 КГц. Сделать распознаватель фонем используя авторегрессионные коэффициенты и обеляющий фильтр