Компания xAI, основанная Илоном Маском, работает над добавлением мультимодальных возможностей своему чат-боту Grok.
Это означает, что пользователи скоро смогут загружать фотографии и получать текстовые ответы. В блоге xAI появился пост, в котором говорится, что Grok-1.5V предложит мультимодальные модели.
Пример сценария на Python демонстрирует, как использовать библиотеку xAI SDK для генерации ответов на основе текста и изображений. Сценарий читает файл изображения, задает текстовый запрос и использует xAI SDK для генерации ответа.
Это значительное обновление для Grok, который был выпущен в ноябре 2023 года и доступен по подписке X Premium Plus. Последнее обновление Grok 1.5 в марте улучшило способности к логическому мышлению.
Grok-1 обучен на текстовых данных из открытых источников до третьего квартала 2023 года и данных, проверенных рецензентами. Он имеет «знания о мире в реальном времени», включая посты на X.