Telegram Group & Telegram Channel
AI Index Report 2024 от Stanford HAI на, кхм, 500 стр, шикарный макро апдейт, все ракурсы:

Глава 1: R&D
- Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет
- Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200
- Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит
- До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022)

- Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К)
- Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии
- В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай

Гл 2: Benchmarks
- Темпы прироста бенчмарков LLM в 2023 рухнули =(
- Закрытые LLM на 24% лучше опенсорса

- Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59%
- MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80%
- Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач)

- Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп

- Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29%
- ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4
- Генерация аудио - прорывной год. А речь уже давно распознают
- Deep fakes выявляют (Celeb-DF) макс. в 80% случаев
- Модели продолжают тестить самоулучшение с RL и игр сами с собой

- Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix)

Гл 3: Этика/responsible AI
- Нет стандартов по responsible AI
- Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =)
- Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась)
- Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей
- Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей
- Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы
- Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal
- AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat

// Часть 2 тут



group-telegram.com/Victor_Osyka/511
Create:
Last Update:

AI Index Report 2024 от Stanford HAI на, кхм, 500 стр, шикарный макро апдейт, все ракурсы:

Глава 1: R&D
- Число параметров у моделей 1000 шт в 1990, 1 млрд 2018, 1 трлн в 2023. А в computer vision макс. размер 1 млрд и пока не растет
- Цена обучения выросла в сотни раз за неск. лет: GPT2 2019 стоила $0.05 млн, PaLM 8, GPT4 80, Gemini/Google 200
- Хорошие text data кончатся в 2024, low quality в 2035. А visual data - хватит
- До 2012 бигтехи нейронки не делали. До 2014 все топ модели были из академии, а сейчас только 15 из 51 топовых. Из 145 ведущих foundation models 28 - закрытые. Гео: 100 моделей из US (+50 с 2022), 21 EU, 20 Китай (+10 с 2022)

- Выдача AI патентов рост 10x за 6 лет до 60К в 2022 (70% Китай, 20% US). Доля US в AI конфах и гитхаб 23%. Конфы посетили 63К чел (NeurIPS 16К)
- Статей в 2x больше, чем в 2010, ~250К шт. Из них 230К журналы (1/5 Китай), 40К конференции (1/3 Китай). Всего 7% статей от индустрии
- В 2022 топ10 ВУЗов по числу AI публикаций #1-9 Китай, #10 - MIT. Из 500 топ AI ученых: 280 US, 150 EU/UK, 50 Китай

Гл 2: Benchmarks
- Темпы прироста бенчмарков LLM в 2023 рухнули =(
- Закрытые LLM на 24% лучше опенсорса

- Текст: понимание вопросов (Glue) 90%, reading comprehension 80%, LLMs struggle w/ reasoning и complex planning - 2-5%, суммаризация 50%, выводы 92%, sentiment analysis 59%
- MMLU (Massive multi-discipline multimodal understanding & reasoning for expert AGI, 16К вопросов в 57 дисциплинах) - 55-60% у Gemini и GPT4, а люди 80%
- Перевод давно засолвили. А вот достоверность фактов всего 60% (TruthfulQA). И глюки у LLM ~20% выдачи (зависит от задач)

- Computer Vision: точность по ImageNet с 60% в 2012 до 91% в 2023. Позы 94% точности, семантическая сегментация 85%, мед.сканы 94%, object detection 82%. А генерация pix за пару лет стала порой неотличима от фото. Вопросы “что происходит на картинках” стало 84% (люди 80%). Visual commonsense 75%, activity recognition 91%. Добавили тесты на правку изображений, 3D по фото, ошибки картинок итп

- Есть Graduate-Level Google-Proof Q&A: у PhD 65%, люди 34%, GPT4 41%, Llama2 29%
- ConceptARC про abstract reasoning 69% у GPT4 (люди 95), в math-word задачках 84% (люди 90). PlanBench (планирование) GPT4 30-60%, люди повыше. Moral reasoning - 30-40% у GPT4
- Генерация аудио - прорывной год. А речь уже давно распознают
- Deep fakes выявляют (Celeb-DF) макс. в 80% случаев
- Модели продолжают тестить самоулучшение с RL и игр сами с собой

- Агенты: тест AgentBench в 8 средах - у GPT4 4 балла, у прочих 2.5. MLAgentBench на разные юзкейсы. Voyager для Minecraft c GPT4 - в разы лучше исследование мира. PaLM-E прикрутили к роботам: +20% задачи с примером действий, 2x для неизвестных. Пытаются мерять emergence score, для оценки может ли появиться бесконтрольное поведение. У GPT4 упала math. Меряют CO2-след (текст в 500x меньше pix)

Гл 3: Этика/responsible AI
- Нет стандартов по responsible AI
- Волна дипфейков для выборов + виралятся секс-фейки типа Taylor Swift. Их легко генерить, сложно детектить (всего 60% сетки ловят). Картинкогенераторы полны расовых biases, тест от BiasPainter. И у GPT4 bias за демократов в US итп =)
- Находят новые уязвимости LLM. Бизнесы волнуются про риски privacy, безопасность данных, ошибки (Tesla распознала пешехода, но не замедлилась)
- Плагиат: LLM могут легко выдавать целиком закопирайченные вещи из датасета, не оч освоено как отлавливать. Midjourney могут выдавать кадры из фильмов. Итп. Может нужна сфера privacy аудита моделей
- Ученым мало прозрачности сеток, пробуют ее мерять. Часть LLM стали писать результаты теста TruthfulQA - про как модели имитируют ложь людей
- Оч серая зона - как этично/с согласия людей бигтехи собирают data -> тут нужны законы
- Фирмы внедряют борьбу с глюками. Самая самомодерируемая сетка про дискриминацию/вред людям/итп - Llama2/Fb, а GPT4 в 7x больше такого выдает. Тест Machiavelli пробует у LLM “мерять” power, immorality, dissatisfaction, betrayal
- AI-риски непонятно как изучать, а тем более обосновывать для policy making. 300 статей в год на конфах посл. годы/flat

// Часть 2 тут

BY Victor Osyka, техноцивилизация


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/Victor_Osyka/511

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies.
from jp


Telegram Victor Osyka, техноцивилизация
FROM American