Telegram Group & Telegram Channel
AI Index Report 2024 от Stanford HAI на, кхм, 500 стр, шикарный макро апдейт, все ракурсы:

Глава 1: R&D
- Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет
- Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200
- Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит
- До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022)

- Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К)
- Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии
- В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай

Гл 2: Benchmarks
- Темпы прироста бенчмарков LLM в 2023 рухнули =(
- Закрытые LLM на 24% лучше опенсорса

- Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59%
- MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80%
- Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач)

- Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп

- Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29%
- ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4
- Генерация аудио - прорывной год. А речь уже давно распознают
- Deep fakes выявляют (Celeb-DF) макс. в 80% случаев
- Модели продолжают тестить самоулучшение с RL и игр сами с собой

- Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix)

Гл 3: Этика/responsible AI
- Нет стандартов по responsible AI
- Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =)
- Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась)
- Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей
- Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей
- Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы
- Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal
- AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat

// Часть 2 тут



group-telegram.com/Victor_Osyka/511
Create:
Last Update:

AI Index Report 2024 от Stanford HAI на, кхм, 500 стр, шикарный макро апдейт, все ракурсы:

Глава 1: R&D
- Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет
- Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200
- Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит
- До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022)

- Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К)
- Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии
- В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай

Гл 2: Benchmarks
- Темпы прироста бенчмарков LLM в 2023 рухнули =(
- Закрытые LLM на 24% лучше опенсорса

- Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59%
- MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80%
- Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач)

- Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп

- Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29%
- ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4
- Генерация аудио - прорывной год. А речь уже давно распознают
- Deep fakes выявляют (Celeb-DF) макс. в 80% случаев
- Модели продолжают тестить самоулучшение с RL и игр сами с собой

- Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix)

Гл 3: Этика/responsible AI
- Нет стандартов по responsible AI
- Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =)
- Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась)
- Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей
- Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей
- Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы
- Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal
- AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat

// Часть 2 тут

BY Victor Osyka, техноцивилизация


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/Victor_Osyka/511

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war.
from ca


Telegram Victor Osyka, техноцивилизация
FROM American