Новый локализованный механизм логического вывода ИИ предназначен для повышения производительности моделей ИИ на фирменном кремниевом чипе Apple. oMLX построен на базе собственной платформы MLX, которая была разработана командой Apple Silicon для использования унифицированной архитектуры памяти их аппаратного обеспечения. Такая настройка обеспечивает доступ к памяти без копирования, позволяя центральному процессору мгновенно считывать выходные данные графического процессора без проблем с передачей данных, характерных для традиционных архитектур ПК. Также используя отложенные вычисления, oMLX оптимизирует всю математическую нагрузку для эффективного выполнения в тот момент, когда требуются результаты.
В отличие от традиционных локальных инструментов искусственного интеллекта, которые сталкиваются с высокой нагрузкой на оперативную память, oMLX реализует уникальную двухуровневую систему кэширования KV, которая улучшает работу на машинах с объемом оперативной памяти всего 32 ГБ. Эта система сохраняет оперативную историю разговоров в высокоскоростной унифицированной памяти, одновременно загружая старые определения контекста и инструментов на SSD-накопитель компьютера. Эта методология отражает управление оперативной памятью современной операционной системы, обеспечивая ИИ доступ к долговременной памяти проекта, не перегружая физические системные ресурсы. Используя высокую скорость хранения данных, присущую современному оборудованию Apple, oMLX обеспечивает расширение оперативной памяти, что обеспечивает бесперебойную работу как системы, так и искусственного интеллекта.
По сравнению с LM Studio, oMLX выполнила сложную задачу по программированию приложений на модели Qwen 3.6 35B примерно за 20 минут по сравнению с 35 минутами у конкурентов. oMLX достигла скорости обработки 47 токенов в секунду, что почти в три раза превышает 16 токенов в секунду, зафиксированные LM Studio при выполнении аналогичной задачи. Экосистема oMLX также продемонстрировала превосходную общую стабильность системы, позволяя работать в многозадачном режиме, в то время как искусственный интеллект работал в фоновом режиме. Напротив, запуск той же модели в LM Studio приводил к значительному отставанию системы и высокой нагрузке на память.
Постоянное кэширование на SSD-накопителе oMLX позволяет без особых усилий восстанавливать проект даже при возникновении ошибок, вызванных превышением аппаратных ограничений контекста. Когда разработчик сталкивается с ошибкой ограничения контекста и сбрасывает свой диалог, oMLX распознает предыдущее состояние проекта и мгновенно повторно загружает память модели с диска. Это не позволяет ИИ потерять представление о своей предыдущей работе и избежать галлюцинаций, которые часто возникают при запуске с нуля в новой сессии. В то время как другие инструменты могут полностью перезагрузиться в случае сбоя, oMLX использует интеллектуальное кэширование, позволяющее модели продолжить работу с того места, на котором она остановилась.