Команда специалистов Microsoft разработала инструмент SpreadsheetLLM, который позволяет искусственному интеллекту (ИИ) работать с электронными таблицами. Исследование опубликовано на сайте arXiv.
Большие языковые модели (LLM), такие как ChatGPT, хорошо известны, но по мере их использования становятся очевидны пробелы в их возможностях. Одна из них — неспособность понимать электронные таблицы. Из-за своей уникальной структуры электронные таблицы остаются загадкой для LLM, что препятствует их использованию в качестве бизнес-инструмента.
В новом исследовании команда Microsoft создала инструмент, который преобразует электронную таблицу в формат, понятный для LLM. Он основан на концепции SheetCompressor — программном инструменте, который позволяет ИИ обрабатывать и анализировать данные в электронных таблицах.
SheetCompressor выполняет три основные функции: сжатие, перевод и агрегацию форматов данных. Сжатие осуществляется добавлением «якорей» — специальных маркеров, которые помогают LLM понять назначение таблицы. Затем строки и столбцы преобразуются в структурированную таблицу. Модули перевода удаляют пустые ячейки и повторяющиеся значения.
В процессе обработки таблица преобразуется в формат JSON, что позволяет агрегировать данные разных форматов. Дополнительно предусмотрены модули для обработки особых случаев, например, ячеек с похожими числовыми форматами.