На хакатоне Tatar.by в г. Казань мы работали над задачей распространения контента на татарском языке. Организаторы нам предложили попробовать улучшить модель распознавания речи на татарском языке. Мы нашли модель sanchit-gandhi/whisper-small-tt-1k-steps, которая в целом давала приемлемый для нас результат в распознавании речи (хотели реализовать субтитирование). Однако организаторы попросили нас каким-то образом сделать свою модель, а не использовать готовые, поэтому мы, ради опыта, решили попробовать дистиллировать эту модель в чуть меньшего размера - whisper-base.
Организаторы любезно предоставили нам 3 GPU V100 с 32Gb видеопамяти. Также организаторы нам предоставили данные на 2 Gb speech corpus, также мы нашли еще 2 Gb данных из другого датасета и 200 Gb данных датасет на hugging face.
По итогу нам не хватило времени обучения, смогли обучиться только на 10% данных от 4 Gb( Однако мы получили опыт в дистилляции моделей, работе с несколькими GPU и распараллеливанием вычислений. Лосс падал, метрики улучшались)))