Новая модель искусственного интеллекта Llama 3.1 от Meta: примеры использования и сравнительный анализ в 25-м году

jisansorkar12 · Post by **jisansorkar12** » Mon Jan 06, 2025 10:21 am

Meta опубликовала веса моделей для Llama 3.1, которая является одной из самых продвинутых языковых моделей . Этот доступ позволяет предприятиям, исследователям или отдельным разработчикам настраивать и развертывать собственные модели на основе Llama.

Это особенно важно для корпоративного генеративного ИИ , поскольку позволяет предприятиям обучать собственных LLM, используя конфиденциальные данные, которыми они, возможно, не захотят делиться с поставщиками облачных услуг или LLM.

Ознакомьтесь с моделями Meta LlaMa 3.1, вариантами их использования и сравните их с ведущими моделями:

Мета ЛлаМа 3.1
В июле 2023 года Meta анонсировала LlaMA (Large Language Model Meta Artificial Intelligence). Настраиваемая на инструкции большая языковая модель (LLM) обучается на токенах 15T, длине контекста 128K (по сравнению с исходными 8K) и различных размерах моделей.

Существуют различные размеры моделей LlaMa, и все модели имеют проинструктированные тонко настроенные версии. Смотрите описания моделей:

Параметры 8B: облегченная модель, оптимальная для базовой генерации текста
Параметры 70B: Экономически эффективная модель, которая позволяет реализовать более сложные сценарии использования для приложений ИИ среднего масштаба.
Параметры 405B: флагманская базовая модель для крупномасштабного анализа данных и сложных сценариев решения проблем.
Таблица 1: Характеристики моделей 405B

Характеристики
моделей 405B АВС Databricks Технологии Делл NVIDIA Грок ИБМ Google Облако Майкрософт
Тонкая настройка

Оценка модели

ТРЯПКА

Постоянная предварительная подготовка

Защитные ограждения

Генерация синтетических данных

Источник: Мета1

*Все партнеры предлагают функции вывода в реальном времени.

Доступность: пользователи могут использовать Llama 3.1 либо напрямую через Amazon Bedrock, либо через развернутую конечную точку с помощью SageMaker JumpStart.

Модели Llama 3 скоро появятся в продаже:

Облачные платформы: AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM и Snowflake
Аппаратные платформы: AMD, AWS, Dell, Intel, NVIDIA и Qualcomm.
Реальные примеры использования Llama 3.1 для улучшения вашей организации
1. Анализ данных
Видео 1: Использование инструмента — Извлечение CSV-файла и построение временного ряда с помощью LlaMa 3.1

Пользователи могут загружать и анализировать набор данных — запрашивать люксембург whatsapp номер телефона модель для построения графиков и рыночных данных.

Источник: Мета2

2. Перевод
Видео 2: Многоязычные агенты

Пользователи могут ввести запрос, например: «перевести историю Гензель и Гретель на испанский язык».

Источник: Мета3

3. Консультант по путешествиям
Видео 3: Сложное рассуждение

Например, пользователи могут спросить: «У меня есть 3 рубашки, 5 шорт и 1 сарафан. Я путешествую 10 дней, хватит ли мне денег на отпуск?». LLaMa разобьет вопрос на части и предложит пользователю, какие вещи взять с собой в трех категориях.

Источник: Мета4

Сравнение Llama 3.1-405B с ведущими моделями

Этот набор оценки включает 1800 подсказок для 12 ключевых вариантов использования. Инженеры работали над улучшением подсказок оценки для оптимизации результатов бенчмарка.

Подробную информацию о наших оценках можно получить из GitHub.5

Вот основные выводы из сравнительной таблицы:

Общая производительность :

Все модели выполняют общие задачи одинаково, достигая практически идентичных результатов в тесте MMLU Chat (0-shot), при этом Llama 3.1 и GPT-4 Omni набрали по 89 баллов, а Claude 3.5 Sonnet немного отстает — 88.
В тесте MMLU PRO (5 выстрелов) Claude 3.5 Sonnet лидирует с результатом 77, в то время как GPT-4 Omni набирает 74, а Llama 3.1 — 73.
В тесте IFEval наилучшие результаты показал Llama 3.1 , набрав 89 баллов, а Claude 3.5 Sonnet и GPT-4 Omni немного отстают — 88 и 86 баллов соответственно.
Производительность кода :

В тесте HumanEval (0-shot) наивысший результат — 92 — показал Claude 3.5 Sonnet , за ним следует GPT-4 Omni с 90 баллами и Llama 3.1 с 89 баллами.
В тесте MBPP EvalPlus (0-shot) Claude 3.5 Sonnet снова лидирует с 91 баллом, в то время как Llama 3.1 и GPT-4 Omni набирают схожие баллы — 89 и 88 соответственно.
Эффективность математических способностей :

В тесте GSM8K (8 снимков) все модели показали превосходные результаты: Llama 3.1 , GPT-4 Omni и Claude 3.5 Sonnet набрали баллы в диапазоне 96–97.
В тесте MATH (0-shot) лучший результат показал GPT-4 Omni — 77, за ним следует Llama 3.1 с результатом 74 и Claude 3.5 Sonnet с результатом 71.
Эффективность рассуждений :

В испытании ARC Challenge (0-shot) все модели демонстрируют высокие способности к рассуждению, набрав по всем показателям 97 баллов.
В тесте GPQA (0-shot) лидирует Claude 3.5 Sonnet с 59 очками, в то время как GPT-4 Omni набирает 54 очка, а Llama 3.1 отстает с 51 очками.
Многоязычное исполнение :

Модели показали хорошие результаты в многоязычном тесте MGSM: Claude 3.5 Sonnet и Llama 3.1 набрали 92 балла, а GPT-4 Omni немного отстал — 91 балл.
Примечание: при сравнении Meata Llama 3.1 405B с другими базовыми моделями следует учитывать не только показатели производительности.

В отличие от аналогов с закрытым исходным кодом, модели Llama 3.1-405B, доступные только через API, можно создавать, изменять и даже запускать локально, что повышает уровень контроля и предсказуемости.

Как эффективно использовать Llama 3.1 405B
Помимо прямого использования модели для вывода и генерации текста, 405B можно использовать для:

Генерация синтетических данных: когда данные для предварительной подготовки и тонкой настройки ограничены, синтетические данные могут заполнить пробел. Llama 405B может предоставить синтетические данные для конкретной задачи для обучения другого LLM.

NVIDIA 340B демонстрирует это, обновляя LLM с использованием синтетических данных, сохраняя при этом существующие знания модели.6

Выжимка знаний: Знания и возникающие навыки модели Llama 405B могут быть выжаты в меньшую модель, объединяющую возможности большой модели с экономически эффективной моделью (такой как 8B или 70B).

Например, Alpaca была доработана из меньшей модели LLaMA (параметры 7B) с использованием 52 000 примеров выполнения инструкций. Эта выжимка знаний помогла сократить затраты на процесс обучения Alpaca на 500 долларов при разработке крупномасштабной модели.7

Непредвзятая оценка: Оценка LLM может быть субъективной из-за человеческих предпочтений, но более крупные модели могут служить оценщиками выходных данных других моделей.

Это продемонстрировано в исследовательской работе LlaMA 2, где более крупные модели, такие как вариант 405B, использовались для оценки качества отклика более мелких моделей во время тонкой настройки.8

Этот метод помогает обеспечить последовательность и объективность при определении наилучших ответов, обходя некоторую присущую человеческой обратной связи субъективность.

Тонкая настройка в зависимости от домена: Meta сделала LLaMA 3.1-405B полностью доступным для тонкой настройки в определенных доменах.

LLaMA 3.1 8B от Meta можно настроить с помощью таких платформ, как Watsonx Tuning Studio от IBM, или с помощью Llama 3.1 405B в качестве альтернативы человеческому аннотированию для создания меток для набора данных.

Например, некоторые специалисты по машинному обучению предоставили набор данных из Hugging Face в LLaMA 3.1 8B, чтобы увидеть, насколько хорошо Llama 3 8B может решать следующие логические задачи.

Это решение почти точное, но не совсем. Правильное измерение составляет 31 дюйм в длину.

Чтобы улучшить логическую способность модели Llama 3 8B отвечать на вопросы, инженеры настроили ее с помощью модели Llama 3.1 405B для создания словесных ответов на вопросы, а затем использовали этот набор данных для тонкой настройки модели Llama 3 8B.9