Skip to content

artezio-kseniav/15-MAG-PMI

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

15-MAG-PMI

Corpus linguistics models

Корпусная лингвистика

ДЗ1. Провести кластеризацию коллекции текстов 20newsgroup. В качестве признаков текстов использовать TFIDF. Визуализировать результат кластеризации и существующие классы на двумерном графике используя известный Вам метод сокращения размерности.

КР1. Собрать коллекцию текстов на английском языке содержащие как минимум два класса.

КР2. Провести поиск семантически близких текстов (по коллекции 20newsgroup) поступающем запросу. В качестве меры семантической близости использовать два подхода: TFIDF + косинусное расстояние и BM25

КР3. Собрать коллекцию русскоязычных текстов содержащих как минимум два класса. Вычислить перплексию для всех классов отдельно используя параметры языковой модели оцененные по НКРЯ.

Распознавание речи

КР1. При помощи PRAAT записать два гласных звука «А», «И» с параметрами 16 бит, 16 КГц. Определить Форманты этих звуков используя спектр. Изменить ширину окна коротковременного спектра (с 0,001 сек. на 0,01 сек.) и пронаблюдать принцип неопределенности на спектрограмме.

КР2. Сделать звуковую запись с параметрами 16 бит, 16 КГц. Применить коротковременные оконные функции и визуализировать одно окно во временной и частотной области используя Matlab. В частотной области по оси Х – цифровая частота, по оси Y мощность гармоники в децибелах.

КР3. Записать несколько фонем с параметрами 16 бит, 16 КГц. Сделать распознаватель фонем используя авторегрессионные коэффициенты и обеляющий фильтр

About

Corpus linguistics models

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published