AI Index Report 2024 от Stanford HAI на

Victor Osyka, техноцивилизация

AI Index Report 2024 от Stanford HAI на, кхм, 500 стр, шикарный макро апдейт, все ракурсы:

Глава 1: R&D
- Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет
- Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200
- Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит
- До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022)

- Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К)
- Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии
- В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай

Гл 2: Benchmarks
- Темпы прироста бенчмарков LLM в 2023 рухнули =(
- Закрытые LLM на 24% лучше опенсорса

- Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59%
- MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80%
- Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач)

- Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп

- Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29%
- ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4
- Генерация аудио - прорывной год. А речь уже давно распознают
- Deep fakes выявляют (Celeb-DF) макс. в 80% случаев
- Модели продолжают тестить самоулучшение с RL и игр сами с собой

- Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix)

Гл 3: Этика/responsible AI
- Нет стандартов по responsible AI
- Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =)
- Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась)
- Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей
- Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей
- Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы
- Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal
- AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat

// Часть 2 тут

www.group-telegram.com/nl/Victor_Osyka.com/511

6.5K viewsedited May 14, 2024 at 08:34

group-telegram.com/Victor_Osyka/511

Create: 2024-05-14
Last Update: 2025-02-24 16:47:07

BY Victor Osyka, техноцивилизация

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/Victor_Osyka/511

Telegram | DID YOU KNOW?

AI Index Report 2024 от Stanford HAI на