Chatbot Arena: Альтман наносит ответный удар
Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.
А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.
Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."
@ai_newz
Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.
А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.
Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."
@ai_newz
group-telegram.com/ai_newz/2584
Create:
Last Update:
Last Update:
Chatbot Arena: Альтман наносит ответный удар
Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.
А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.
Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."
@ai_newz
Пару недель назад Claude 3 Opus сместил GPT-4 с вершины пищевой цепочки по общему рейтингу, но тут подоспели результаты новой GPT-4 Turbo 2024-04-09 в чатбот арене. Новая модель OpenAI смогла победить Opus, который продержался на первом месте чуть меньше трёх недель. Claude 3 Opus всё ещё лучше в отдельных задачах: понимании длинного контекста и китайском языке.
А ещё появились результаты DBRX, всё плохо: модель оказалась на 26 месте и отстаёт от Mixtral, у которого в два раза меньше параметров.
Под конец приведу цитату классика: "Сейчас я доверяю только двум бенчмаркам LLM: Chatbot Arena и разделу комментариев r/LocalLlama."
@ai_newz
BY эйай ньюз


Share with your friend now:
group-telegram.com/ai_newz/2584