Google 14 мая провела презентацию под названием Google I/O, которая была посвящена искусственному интеллекту (ИИ).
Одним из значимых нововведений компании стало то, что в сервисе распознавания изображений Google Lens появилась возможность поиска по видео: пользователь может снять ролик того, о чем он хочет "узнать", задать интересующий вопрос прямо во время съемки, а система поможет ему найти ответ в интернете.
Разработчики представили и новую модель ИИ Gemini 1.5 Flash. По своей мощности она сопоставима с Gemini 1.5 Pro, однако оптимизирована для "узких, высокочастотных задач с малой задержкой". За счет этого она сможет быстрее генерировать ответы. Изменения коснулись и Gemini 1.5, который стал лучше переводить, рассуждать и кодировать. Также с 1 млн до 2 млн токенов выросло количество информации, которое может принять Gemini 1.5 Pro.
Вместе с этим Google решила внедрить свою новейшую языковую модель Gemini 1.5 Pro в боковую панель Gmail, "Документов", "Диска", "Таблиц" и "Презентаций". В июне доступ к нему получат платные подписчики. Тогда же он станет более универсальным помощником в Workspace и будет получать информацию с "Диска" пользователя вне зависимости от того, где он находится. Более того, система, в частности, будет писать за человека электронные письма, содержащие информацию из документа, который он просматривает в этот момент.
Компания также анонсировала Project Astra — мультимодального ИИ-помощника, который будет не просто "общаться" с пользователем, но и выполнять другие полезные функции: например, в реальном времени распознавать объекты в кадре прямо в приложении камеры.
Еще одна новинка — это генеративная модель ИИ Veo, которая способна создавать ролики с разрешением 1080p продолжительностью более одной минуты. Делать это она будет с помощью подсказок пользователя в виде текста, картинок или видео.
Вместе с этим компания запускает собственный создатель чат-ботов, который получил название Gems. Он будет давать Gemini инструкции по настройке того, как и на чем будет работать система.
Другим нововведением стала функция Gemini Live, благодаря которой голос чат-бота станет более естественным, а сами пользователи, если потребуется, смогут прервать его на полуслове или попросить посмотреть через камеру смартфона и предоставить информацию об "увиденном".
Важное обновление получили и владельцы устройств на базе Android: они могут обводить математические задачи прямо на экране и получать помощь в их решении.
Также ИИ Gemini Nano поможет владельцам Android-устройств избежать мошеннических звонков: робот будет отслеживать распространенные шаблоны в разговорах злоумышленник и отображать их в режиме реального времени, тем самым предупреждая пользователя об опасности. Более подробная информация о новой функции будет представлена позднее в этом году.
Еще одним нововведением для Android стало то, что Gemini позволит пользователям задавать вопросы о видео, а чат-бот будет предоставлять ответы на основе автоматических субтитров. При этом для платных подписчиков он будет импортировать PDF-файлы.
Кроме того, компания создала новую версию поиска, в которую вошли так называемые обзоры ИИ. Она будет доступна пользователям из США уже на этой неделе.
Разработчики не обошли стороной и свой браузер Chrome для настольных компьютеров — туда добавят Gemini Nano. Встроенный ассистент будет генерировать тексты для публикаций в соцсетях, обзоры продуктов и многое другое.
Помимо этого, расширились возможности SynthID. Компания заявила, что будет вставлять водяные знаки в контент, который создан при помощи нового генератора видео Veo, и сможет обнаруживать ролики, созданные ИИ.