Крупная языковая модель | Определение, История и Факты

Крупная языковая модель (LLM) – это алгоритм глубокого обучения, который использует огромное количество параметров и данные для обучения, чтобы понимать и предсказывать текст. Эта модель на основе генеративного искусственного интеллекта может выполнять разнообразные задачи обработки естественного языка, такие как редактирование и перевод контента.

Подлежащие механизмы

Слово «крупная» относится к параметрам, или переменным и весам, которые используются моделью для влияния на результат предсказания. Хотя нет четкого определения, сколько параметров необходимо, размеры наборов данных для обучения LLM варьируются от 110 миллионов параметров (модель BERTbase от Google) до 340 миллиардов параметров (модель PaLM 2 от Google). Крупная также относится к огромному количеству данных, используемых для обучения LLM, которые могут составлять несколько петабайт и содержать триллионы токенов, которые являются основными единицами текста или кода, обрабатываемыми моделью.

LLM стремятся произвести наиболее вероятный результат слов для заданного запроса. Меньшие языковые модели, такие как функция предсказания текста в приложениях для обмена сообщениями, могут дополнить пропуск в предложении «Больной мужчина вызвал скорую помощь, чтобы отвезти его в _____» словом «больница». LLM функционирует аналогично, но на гораздо более крупном и нюансированном уровне.

История

Первые языковые модели, такие как программа Eliza Массачусетского технологического института 1966 года, использовали заранее определенный набор правил и эвристик для перефразирования слов пользователей в вопрос на основе определенных ключевых слов. Таким образом, модели на основе правил были заменены статистическими моделями, использующими вероятности для предсказания наиболее вероятных слов.

Нейронные сети, основанные на более ранних моделях, начали «обучаться» в процессе обработки информации, используя модель узлов с искусственными нейронами. Узлы активировались на основе вывода других узлов. Первые крупные языковые модели возникли в результате внедрения трансформерных моделей в 2017 году. Новые скорости, предоставленные трансформерами, позволили использовать еще больше параметров и данных, что открыло путь для появления первых LLM, таких как BERT (Bidirectional Encoder Representations from Transformers) от Google и GPT (Generative Pre-trained Transformer) от OpenAI в следующем году.

Сложности и опасения

У LLM есть ряд недостатков. Модели требуют огромных ресурсов, иногда до сотен гигабайт оперативной памяти. Более того, их внутренние механизмы чрезвычайно сложны, что может приводить к проблемам с устранением неполадок, когда результаты оказываются неверными. Иногда LLM представляют ложную или вводящую в заблуждение информацию как факт, что известно как галлюцинация. Методы борьбы с этой проблемой включают инженерию подсказок, процесс, при котором инженеры создают подсказки, направленные на извлечение оптимального вывода из модели.

Этические и социальные риски

Даже при наличии хорошо функционирующей LLM существуют многочисленные этические и социальные риски. Растущее количество художников и создателей утверждает, что их работа используется для обучения LLM без их согласия. Это привело к множеству судебных исков и вопросам о последствиях использования ИИ для создания искусства и других творческих работ. Модели могут продлить стереотипы и предвзятости, существующие в информации, на которой они обучены.

Другие проблемы, обозначенные экспертами, включают информационные риски, при которых LLM могут раскрывать частную информацию, содержащуюся в обучающих данных; злоупотребление, когда недобросовестные лица используют модели для поддержки кампаний дезинформации или мошенничества; и экономический ущерб, когда LLM могут вытеснять работников и углублять неравенство между теми, кто имеет доступ к технологиям, и теми, кто такого доступа не имеет.




Прокомментировать в Телеграм: https://t.me/n8nhow

Подписаться на канал обучения n8n: https://t.me/n8ncoaching