Новости

«Яндекс» сообщил о «прорыве в оптимизации больших языковых моделей»

Лаборатория исследований искусственного интеллекта Yandex Research совместно с ведущими научно-технологическими вузами разработала метод быстрого сжатия больших языковых моделей (LLM) без потери качества: теперь для работы с моделями достаточно смартфона или ноутбука — и не нужно использовать дорогие серверы и мощные GPU, сообщил «Яндекс».

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести её квантизацию на дорогостоящем сервере, что занимало от нескольких часов до нескольких недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты.

Квантизация, если давать нестрогое определение этому термину, представляет собой сжатие LLM за счёт снижения точности, округления весовых коэффициентов, используемых для настройки модели. Квантизация не улучшает качество результата, но делает результат достижимым.

Как говорится в сообщении, новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров. Метод обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах.

В разработке метода участвовали учёные из НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета имени короля Абдаллы (KAUST).

Источник: Яндекс