Google нашла способ сделать большие языковые модели быстрее и дешевле без потери качества
Google Research анонсировала технологию Speculative Cascades — гибридный подход, который объединяет сразу два проверенных метода ускорения генерации текста и меняет правила игры на рынке LLM.
Этот способ позволяет делать работу нейросетей быстрее и дешевле, не жертвуя качеством ответа, а в некоторых случаях даже улучшая его.
habr.com