Manus – ИИ-Агент, который удивил всех! Как Использовать бесплатно?

Оценили: 21

Manus AI – первый автономный ИИ-агент, который планирует, ищет в интернете, кодит, отмечает свой прогресс, пользуется виртуальным компьютером, создавая директории и файлы.

Прямая ссылка на видео https://www.youtube.com/watch?v=nH0fpnBgluI

Пересказ видео от нейросети

Введение

Манус — новый агент, который вызвал ажиотаж в AI сообществе.
Агент превосходит модели от Open AI по многим задачам.

Что такое Manus?

Manus проходит бенчмарк GY benchmark, проверяющий автономность моделей.
Он превосходит Open AI Research по различным уровням сложности.

Как получить доступ к Manus?

Доступ к Manus ограничен и требует специального кода приглашения.
Можно подать заявку на доступ, но это может занять время.

Примеры работы Manus

Manus может проводить анализ акций Tesla, создавать файлы и директории.
Он способен выполнять команды, такие как проверка файлов в директории.

Технические детали Manus

В основе Manus лежит модель Clotsonet с доступом к 20 различным инструментам.
Агент использует браузер для взаимодействия с интернетом и компьютером.

Преимущества Manus

Manus объединяет функционал поиска, просмотра экрана, написания кода и использования терминала.
Это первый автономный агент, показывающий впечатляющие результаты.

Альтернативные решения

Существуют опенсорсные фреймворки, такие как OVA от Camel AI, открытый Manus и Anus.
OVA устанавливается через терминал и требует настройки виртуальной среды.
Открытый Manus работает плохо, а Anus требует больше ручного кодирования.

Установка Playwright

Команда npm install Global Playwright
Команда NPX Playwright Install для установки зависимостей

Настройка API ключей

В файле DV настроить Open API ключ
Найти Google API ключ на сайте programmablesearchengine.google.com
Вставить Search Engine ID и API ключ в файл DV
Получить API ключи для Firecoll и Chanker API

Запуск веб-интерфейса

Команда Python runp.p. для запуска веб-интерфейса
Выбор режима def для работы с GPT4O
Ввод запроса и запуск анализа

Тестирование модели

Пример запроса: анализ мнений на Reddit о model context Protocol
Наблюдение за логи и скриншотами
Проблемы с поиском строки ввода на веб-странице

Итоги и рекомендации

OpenMus не впечатлил, текущее решение работает лучше с компьютер юзом
Приглашение к тестированию других open source решений и обсуждение результатов в комментариях
Возможность подать заявку на манус, который может быть бесплатным

Поддержка проекта

Поддержка проекта через лайки, комментарии и подписку на канал
Анонс будущих выпусков

В этом видео

Интро
0:00
Манус и агент от китайской компании,
0:02
который возбудоражил всё AI комьюниity.
0:05
Что это за неожиданный релиз, что
0:07
находится под капотом у этого агента?
0:09
Неважно, что у машины под капотом. Самое
0:12
главное — это то, кто сидит за рулём.
0:14
Почему он так круто справляется с
0:16
огромным количеством задач, превосходя
0:18
модели от Open AI? Люди, роботы, привет.
0:21
Сегодня хочется поговорить про иагента
0:23
под названием Манус, который вот уже
0:25
который день разрывает новостную
0:26
повестку, будоражит и удивляет абсолютно
0:29
всех и энтузиастов, и блогеров. И в этом
0:31
ролике мы с вами посмотрим, на что
0:33
способен этот агент. Я расскажу, как
0:36
получить или постараться получить к нему
0:38
доступ, а также расскажу про
0:40
альтернативные opсоourсные решения,
0:42
которые прямо сейчас можно установить
Что такое Manus?
0:45
себе на компьютере и получить manнуlik
0:47
experience. На своём сайте manus
0:49
приводит такой интересный бенчмарк под
0:51
названием GY benchmark, что переводится
0:54
как General AI Assistant. Бенчмарк,
0:57
который проверяет разные модели или
1:00
системы на возможность автономно решать
1:02
разные задачи: ходить в интернет,
1:05
искать, планировать, выполнять команды в
1:07
терминале, использовать разные
1:09
компьютерные интерфейсы, в том числе
1:10
Vision, вот тот самый аля оператор от
1:13
Open AI. По этому бенчмарку manus AI
1:15
хорошенечко слихвой превосходит на
1:18
разных уровнях сложности Open ID
1:21
resarch. И это уже как-никак серьёзный
1:24
показатель того, что модель что-то
1:26
доумеет. Давайте всё-таки посмотрим, как
1:28
это работает, что это из себя
1:30
представляет. К сожалению, для того,
1:32
чтобы на данный момент получить доступ к
1:34
манусу, нужно, ну, кем-то точно быть.
1:37
Если мы нажмём get started, нас закинет
1:40
вот сюда и за отсутствием, не имея
1:43
специального кода приглашения, вы его не
1:45
получите, но можно нажать Apply for
1:48
access и ждать у моря погоды, как, в
1:51
общем-то, поступил я. Сделайте это прямо
1:53
сейчас, чтобы максимально скоро получить
1:56
доступ к этой штуковине. Почему? Потому
1:59
что то, что она умеет, точно вас удивит.
2:02
Вот давайте посмотрим запись того, как
2:05
модель работает в ускоренном режиме.
2:07
Здесь просят провести анализ акции
2:10
Tтеesla, предоставить обзор компании,
2:13
собрать некоторую финансовую информацию,
2:15
провести технический анализ, сравнить
2:17
разные финансовые показатели внутри
2:19
компании, провести своднализ. И на что я
2:22
хочу обратить ваше внимание, на что
2:24
способен Manus, да, в принципе, на всё.
2:26
Для начала он создаёт отдельный Markдаун
2:29
файл, в котором прописывает план
2:32
предстоящего исследования. Как вы можете
2:34
заметить, этот план крайне объёмный.
2:37
После чего, а точнее, скорее всего перед
2:38
этим, создаёт нужные директории, имея
2:40
доступ к терминалу. Всё это пыхтит на
2:43
Линуксе, создаёт нужные директории,
2:45
создаёт нужные файлы и постепенно
2:48
двигается шаг за шагом по своему плану,
2:50
отмечая сделанные этапы и шаги.
2:53
Получается чертовский объёмный и
2:55
продолжительный анализ по той
2:57
информации, которую я сумел найти, и
3:00
посмотрел ролики и посты почитал.
3:03
Иногда по 20, 30-60 минут манус может
3:06
работать с возможностью давать ему
3:08
какие-то комментарии, правки и что-то
3:11
просить изменить при необходимости. В
3:13
итоге получаем вот такой финальный
3:15
результат, который просто потрясающий.
3:19
Здесь есть всё. И это делается, ну,
3:21
буквально по одному промту и нескольким
3:24
ещё дополнительным комментариям.
3:26
Динамично, красиво, понятно, цветасто и
3:30
просто поразительно. А вот интересный
3:32
пример, который позволил нам узнать, что
3:35
же из себя представляет manнус. Один из
3:38
пользователей попросил выполнить вот
3:40
такую команду: «Проверь, что за файлы
3:43
находятся в такой-то директории», то
3:46
бишь в директории, в которой этот манус
3:48
сам, собственно, хранится и написан, и
3:50
дай мне их, пожалуйста, загрузить. После
3:53
чего Манус всё это успешно выполнил, все
3:55
команды нужные провёл и выдал
3:58
соответствующие файлы, из которых стало
4:00
известно следующее. Видимо, одна из
4:04
главных моделей, которая там живёт — это
4:06
Clлоet, у которого есть доступ к
4:08
двадцативя различным инструментам.
4:11
Clotsonet без мультиагентности, что
4:13
немножко странно. Возможно, всё-таки это
4:15
не совсем правда. использует браузер,
4:18
насколько я понимаю, это openсоourсное
4:19
решение для того, чтобы ээ делать
4:22
аналогичный оператору
4:24
или use вот эти системы, которые могут
4:27
кликать мышкой, ходить в интернет и
4:28
видеть экран вашего монитора. После чего
4:31
под этот пост пришёл один из основателей
4:33
мануса и ещё немного проясни прояснил
4:37
ситуацию, рассказав, что всё-таки это
4:39
мультиагентная система. Да,
4:40
действительно, используется браузер, про
4:43
который я упомянул. И в целом manнус
4:45
построен на большом количестве разных
4:47
openсорсных решений. Просто они
4:49
настолько слажено и качественно
4:51
работают, что вот такие чудесные
4:53
результаты мы можем получать. Маленькая
4:55
ремарка, почему manнус — это
4:57
действительно прорыв и, можно сказать,
5:00
следующий шаг в том, как мы
5:02
взаимодействуем с и моделями. До этого у
5:04
нас были с вами чатботы, у которых есть
5:06
инструменты. И так или иначе при помощи
5:09
разных ноукод или кодрешений мы строили
5:11
с вами мультиагентные системы. Но досели
5:14
не было видно ни одного решения, которое
5:16
вбирает в себя всё: и функционал поиска
5:19
в интернете, и функционал просмотра
5:21
экрана компьютера, и написание кода, и
5:24
использование терминала, создания разных
5:27
файлов, директорий. То есть это
5:28
действительно первый автономный и агент,
5:32
показывающий невероятно впечатляющий
5:34
результат. Вот ещё несколько примеров.
5:37
Скопируй сайт Apple. И получается, ну,
5:39
очень и очень и очень здравая здравый
5:43
результат. Сделай 3GS игру. Э вот такой
5:47
результат здесь есть. Полноценная игра,
5:50
которая чем-то как Red Dead Redemption
5:52
GTA напоминает. Насколько я понимаю,
5:54
здесь персонаж не бегает, не двигается,
5:56
только его почему-то такое пространство
5:58
сгенериро сгенерировано, но сам факт.
6:00
Создай удивительную анимацию. И анимация
6:03
получается тоже, в общем-то, достаточно
6:05
удивительная. Ну а теперь к самому
6:07
интересному. А можем ли мы прямо сейчас
6:10
всё-таки с вами какое-то найти
6:12
opсоourсное решение, то бишь открытая,
6:15
бесплатное, не стоять эту очередь за
6:17
хлебом, а точнее за манусом и что-то уже
6:21
начать делать с такими автономными и
6:23
системами. Я вам постараюсь достаточно
6:26
коротко, но тем не менее понятно
6:27
рассказать про то, как вот данный
6:29
фреймворк под названием OVA установить
6:33
на ваш компьютер и как начать им. Я
6:35
протестировал два фреймворка, нашёл три
6:38
фреймворка. Вот данный фреймворк от
6:40
Camel AI, ова, который мы сейчас с вами
6:42
будем устанавливать. Другой фреймворк
6:44
называется открытый manнус. Он у меня
6:47
находится вот здесь. Он мне понравился
6:49
гораздо меньше. работает, честно говоря,
6:51
отвратительно. Несмотря на то, что у
6:53
него большое количество звёзд на
6:55
гитхабе, они растут какими-то
6:56
невероятными, э, темпами. Либо я не
7:00
сумел его правильно запромтить и ещё не
7:02
натренировался так, чтобы он меня
7:03
слушался и выполнял действительно
7:05
многоступенчатые задачи, либо просто всё
7:07
не так здесь гладко и сладко. Ну и
7:09
третий фреймвор под названием Анус. Вы
7:12
не ослышались и не овиделись. В общем,
7:16
не знаю, как-то расслышать и развидеть,
7:18
но можно в целом установить анус на свой
7:21
компьютер. У меня не дошли, честно
7:23
говоря, руки до этого фреймворка. Ну вот
7:27
не знаю, из каких соображений, может из
Manus, но опенсорс
7:29
из этических. И кажется, здесь нужно
7:31
чуть-чуть больше самому всё кодить,
7:33
настраивать, все эти инструменты
7:34
выбирать. Но тоже вот, пожалуйста, анус
7:37
есть. И, насколько я понимаю, он был
7:40
сделан как раз-таки на основе вот той
7:42
информации, которую из мануса вытащил
7:45
пользователь, про которого я говорил в
7:47
начале ролика. Тем не менее, перейдём в
7:50
Camel
7:51
AI, в идём вот этот шаг инсталляция, то
7:55
бишь установка. Делается-то всё
7:57
достаточно просто. Вам необходимо
7:59
открыть ваш терминал. в вашем терминале.
8:02
Ну, неплохо бы определиться, где вы
8:04
находитесь, в какой директории, и
8:06
сходить в директорию, в которой вы
8:09
хотите склонировать данный, э,
8:12
репозиторий. После этого я сейчас
8:14
нахожусь в директории кодинг. После
8:16
этого я просто ввожу данную команду
8:18
команду и клонирую. Я этого делать
8:20
сейчас не буду, потому что я это уже
8:23
сделал. После того, как вы, ээ,
8:26
клонируете данную репозиторию, вы
8:29
переходите в соответствующую папку
8:32
директорию Ow. Если у вас ещё не
8:34
установлен UV, то необходимо ввести
8:36
данную команду. После этого уже неплохо
8:38
переместиться в курсор. Я здесь как
8:42
обычно нажимаю Command O и захожу вот в
8:45
нужную нам директорию. Нажимаю открыть.
8:48
Далее нам последовательно нужно ввести
8:50
следующие команды для того, чтобы
8:53
запустить виртуальную среду Virtual
8:57
Environment. Запускаем команду раз.
8:59
Запускаем команду два, если вы на MacOS
9:01
Linux или команду два, если вы на
9:04
Windows. После этого устанавливаем все
9:06
зависимости при помощи этой команды.
9:09
Напомню, все эти команды вводятся вот
9:12
сюда в терминал и нажимается Enter.
9:14
Опять же, я это всё уже сделал. С чем
9:16
мне немного пришлось побороться, так это
9:19
вот с установкой браузера, доступ к
9:22
которому будет у этого и агента. Это
9:26
работало у меня всё немножко не так, как
9:28
мне хотелось, и поэтому вот мы здесь с
9:30
курсором, точнее, это не работало. И
9:31
поэтому мы с курсором здесь ещё сделали,
9:33
ввели несколько таких команд. Первая
9:36
команда — это npm install Global
9:38
Playright. Точно также вы её можете
9:40
ввести в терминал. После этого команда
9:43
NPX Playrite Install и после этого вот
9:47
эта команда для того, чтобы установить
9:50
все необходимые зависимости. Опять же,
9:52
чуть подробнее, прямо с самого-самого
9:54
нуля я на эфире всё это дело разберу.
9:56
Далее нам необходимо вот в этом файлике
10:00
DV настроить все наши API ключи. Данные
10:03
API ключи, конечно, я удалю после записи
10:06
ролика. Вставляем сюда Open API ключ.
10:09
Вот в эти кавычки. После этого
10:11
спускаемся ниже, вставляем Google API
10:13
ключ. Где его найти? А всё не так
10:16
просто. Нам нужен вот такой интересный
10:17
сайт programmable
10:20
searchengine.google.com. Я думаю, что
10:21
все ссылки, которые я здесь так или
10:23
иначе проговариваю, я добавлю в наш
10:25
Telegram-канал. У вас здесь появится
10:27
возможность добавить новый поисковый
10:30
движок. Вот я свой движок уже сделан.
10:33
После этого здесь вам необходим Search
10:35
Engine ID, который мы вставляем вот в
10:38
данное поле. Он у меня уже добавлен.
10:40
Далее спускаемся ниже и нажимаем
10:43
Programmatic Access Get started для
10:45
того, чтобы найти необходимый API ключ.
10:48
После чего нажимаем get и вам
10:51
предложится создать нужный API ключ,
10:54
который вы вставляете вот сюда. Точно
10:57
также я его сюда уже добавил. Есть ещё
11:00
несколько сервисов, а именно два. Это
11:01
Firecoll и Chanker API, в которых вам
11:04
нужно раздобыть API ключи. Ссылочка на
11:07
них есть. переходите, регистрируетесь,
11:09
находите API ключи. Там всё крайне
11:12
просто и прямолинейно. Далее
11:14
возвращаемся в O и, э, смотрим, как нам
11:17
разместить всё это дело, точнее, как
11:19
запустить нам веб-интерфейс для того,
11:21
чтобы было, ну, работать поприятнее, да
11:24
повеселее. Python
11:26
runp.p. Возвращаемся в наш терминал и
11:30
нажимаем, вводим эту команду. какое-то
11:33
время потребуется для того, чтобы э-э
11:37
получить нужный. У меня он уже получился
11:39
быстро. Нажимаем эту ссылочку и
11:42
открываем web интерфейс, в котором можно
11:46
работать. Здесь выбираете модельку
11:48
default, точнее режим def, потому что
11:52
это как раз-таки работа с GPT4O, а сюда
11:54
вы вводите свой запрос. Быстро проведём
11:57
один тест, попробуем проанализировать
12:01
что вообще народ на Редите думает о
12:03
model context Protocol, тоже новомодной
12:06
в AI тусовке теме. Нажимаем Run и
12:09
наблюдаем за тем, что происходит. Здесь
12:12
у вас есть логи, которые вы можете
12:14
почитать, посмотреть и, в общем, даже,
12:16
э, увлекательное чтиво на над тем, как
12:19
оно всё работает, как агенты,
12:21
мультиагенты коммуницируют друг с
12:23
другом. Ну, если есть вот желание и
12:25
необходимость. Точно также все ваши логи
12:28
сохраняются вот сюда в логи. И,
12:31
соответственно, где-то сейчас это всё
12:33
тоже сюда в динамичном режиме начинает
12:36
сохраняться. Но вернёмся, посмотрим, что
12:38
здесь у нас происходит. Ну вот, моделька
12:41
решила открыть браузер. Открывается
12:43
соответствующий хромиум. И как вы можете
12:46
заметить, пошёл наш
12:49
open онрсный друг,
12:51
Совалетела разбираться, что там на
12:53
Редите. Также достаточно увлекательно
12:55
вот здесь можно посмотреть на скриншоты,
12:58
которые моделька делает, и как она
13:01
вообще понимает, ээ, что находится на
13:04
веб-странице. Вот первый скриншот, вот
13:07
второй скриншот она сделала. И вот так
13:09
вот она различает, в общем-то, все, ну,
13:11
то есть не пикселями, по большому счёту,
13:13
а именно какими-то отдельными мм
13:15
блоками. Интересно, достаточно работает.
13:18
Ну, давайте посмотрим, продвинулись ли
13:20
мы хоть куда-нибудь. Ситуация
13:22
критическая. Мне кажется, абсолютно не
13:24
получается у модели найти ээ строчку,
13:27
куда вводить поиск. И поэтому я уже жду
13:30
на протяжении приличного количества
13:31
времени, но ничего не происходит. Тем не
13:35
менее, ээ, вот так. Это всё, что я могу
13:38
вам показать на данный момент. Ээ, по
13:40
поводу open sourсных решений. Как я уже
13:43
говорил выше, OpenMus меня совсем не
13:45
впечатлил. Эта штука меня впечатлила
13:48
больше, но конкретно с компьютер юзом на
13:50
данный момент. Вот здесь конкретно у нас
13:52
проблемы. Попробуем что-то ещё
13:54
интересное поделать. Может быть, не
13:56
только с компьютер юзом, но и в целом с
13:59
ресерчем и с кодингом, и с созданием
14:01
чего бы то ни было на эфире, на который
14:03
я снова вас приглашаю. Если вы такой
14:06
затейник и решите тоже потестировать все
14:09
эти open sourceные варианты, расскажите
14:10
в комментариях, что у вас сработало
14:12
лучше, что понравилось больше, почему,
14:15
как и зачем. И, э, не забывайте, что
14:18
есть возможность сейчас подать заявку на
14:20
манус. Я рекомендую всем это сделать.
14:22
Ну, потому что это действительно
14:24
крышесносный агент, который, скорее
14:26
всего, будет стоить приличное количество
14:28
денег, но, может быть, ещё и успеем мы с
14:30
вами попользоваться им бесплатно. С вами
14:32
был дядя Де канал. Продуктивный совет.
14:34
Поддержать наш проект можно, поставив
14:37
лайк, комментарий, подписавшись на
14:38
канал. Увидимся в будущих выпусках.
14:41
Пока.
14:45
[музыка]
14:58
[музыка]

Пересказ видео от нейросети

В этом видео

Похожие записи