A Look at Upcoming Innovations in Electric and Autonomous Vehicles Alibaba выпустила роботов с мозгом. Физический мир под контролем

Alibaba выпустила роботов с мозгом. Физический мир под контролем

Alibaba выпустила роботов с мозгом. Физический мир под контролем

Qwen-Robot Suite: три модели, которые учат машины действовать, а не просто понимать

Инженеры Alibaba опубликовали Qwen-Robot Suite - комплект из трёх AI-моделей, заточенных под работу в реальном физическом пространстве. Это не очередной чат-бот с расширенными возможностями. Речь о системах, которые умеют ориентироваться в среде, манипулировать объектами и предсказывать, как будет развиваться ситуация вокруг них.

Три модели - три уровня взаимодействия с реальностью

Набор закрывает сразу несколько ключевых задач робототехники, которые раньше решались разрозненными инструментами. Каждая модель - отдельный функциональный блок. Иордания - Алжир 2 тур

Первая - Qwen-RobotNav - отвечает за навигацию. Она объединяет следование инструкциям, движение к точке, поиск и отслеживание объектов, а также автономное вождение. Внешний планировщик может дробить крупную задачу на цепочку подзадач и переключать режимы модели на лету. Обучение шло на 15,6 млн примеров, а сама архитектура масштабировалась от 2 до 8 млрд параметров - это стандартный для отрасли приём, чтобы нащупать баланс между точностью и вычислительными затратами.

Вторая - Qwen-RobotManip - занимается физическим взаимодействием с объектами. Здесь авторы столкнулись с классической болью робототехники: данные, собранные на одном роботе, плохо переносятся на другой из-за разных конструкций, сенсоров и систем управления. Решение - механизм выравнивания представлений, движений и поведения. Проще говоря, модель учится работать с «переводом» между разными железными платформами. Корпус обучающих данных - 38 тыс. видео в сочетании с робототехническими и синтетическими примерами.

Третья - Qwen-RobotWorld - модель мира. Она получает наблюдения в реальном времени и текстовые инструкции, а в ответ генерирует визуальные траектории: как именно будет меняться физическая среда при том или ином действии. Это критически важный компонент для планирования: прежде чем что-то делать, система может «проиграть» сценарий в голове.

Почему это важно - и кому

Гонка за «воплощённым» AI - embodied intelligence - идёт параллельно с борьбой за языковые модели. Google, Meta, Boston Dynamics и десятки стартапов вкладывают миллиарды в то, чтобы интеллект перестал жить только в облаке и научился действовать руками и колёсами. Alibaba с Qwen-Robot Suite входит в этот сегмент с открытым кодом - все три модели доступны публично, что существенно снижает порог входа для исследователей и небольших команд разработчиков.

Показательно, что компания не стала делать одну универсальную систему, а разбила задачу на специализированные компоненты. Такой модульный подход позволяет комбинировать блоки под конкретный сценарий: склад, беспилотник, промышленный манипулятор или сервисный робот. Это гибче монолитной архитектуры. И, как правило, надёжнее в production-среде.

Открытость моделей также означает, что сообщество быстро найдёт их слабые места - и это хорошо. Кстати, параллельно в технологическом мире происходят события столь же непредсказуемые, как, например, Иордания - Алжир 2 тур чемпионата мира, где ни одна «модель» не даст точного прогноза. Робототехника - та же история: реальный мир всегда сложнее любой симуляции, и именно в этом заключается главный вызов для всего направления embodied AI.