Telegram Group & Telegram Channel
AI Index Report 2024 от Stanford HAI на, кхм, 500 стр, шикарный макро апдейт, все ракурсы:

Глава 1: R&D
- Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет
- Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200
- Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит
- До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022)

- Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К)
- Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии
- В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай

Гл 2: Benchmarks
- Темпы прироста бенчмарков LLM в 2023 рухнули =(
- Закрытые LLM на 24% лучше опенсорса

- Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59%
- MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80%
- Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач)

- Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп

- Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29%
- ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4
- Генерация аудио - прорывной год. А речь уже давно распознают
- Deep fakes выявляют (Celeb-DF) макс. в 80% случаев
- Модели продолжают тестить самоулучшение с RL и игр сами с собой

- Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix)

Гл 3: Этика/responsible AI
- Нет стандартов по responsible AI
- Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =)
- Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась)
- Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей
- Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей
- Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы
- Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal
- AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat

// Часть 2 тут



group-telegram.com/Victor_Osyka/511
Create:
Last Update:

AI Index Report 2024 от Stanford HAI на, кхм, 500 стр, шикарный макро апдейт, все ракурсы:

Глава 1: R&D
- Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет
- Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200
- Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит
- До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022)

- Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К)
- Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии
- В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай

Гл 2: Benchmarks
- Темпы прироста бенчмарков LLM в 2023 рухнули =(
- Закрытые LLM на 24% лучше опенсорса

- Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59%
- MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80%
- Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач)

- Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп

- Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29%
- ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4
- Генерация аудио - прорывной год. А речь уже давно распознают
- Deep fakes выявляют (Celeb-DF) макс. в 80% случаев
- Модели продолжают тестить самоулучшение с RL и игр сами с собой

- Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix)

Гл 3: Этика/responsible AI
- Нет стандартов по responsible AI
- Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =)
- Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась)
- Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей
- Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей
- Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы
- Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal
- AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat

// Часть 2 тут

BY Victor Osyka, техноцивилизация


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/Victor_Osyka/511

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

READ MORE In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Anastasia Vlasova/Getty Images Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from tr


Telegram Victor Osyka, техноцивилизация
FROM American