Telegram Group & Telegram Channel
Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее.

И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.

В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!

C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:

- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.

- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.

- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.

- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.

- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.

Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.

Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.

@ai_newz



group-telegram.com/ai_newz/2651
Create:
Last Update:

Интересно, как в борьбе за хайп уживаются большие команды с мегатоннами вычислительной мощности, и те что поменьше, университетские группы и маленькие стартапы или компании с небольшими R&D отделами. Эту тему на своем примере подняли ребята из Tinkoff Research в недавнем интервью. Учитывая, что видеокарты не бесконечны, важнейший исследовательский трек для них — повышение эффективности моделей, и выбор неочевидных направлений, в которые копает чуть меньше групп, но которые, по их мнению, могут быть намного перспективнее.

И действительно, пока читаешь все эти пейперы и релизы, нет нет да замечаешь интересный, но казалось бы, очевидный паттерн. Небольшие исследовательские группы генерируют более креативные идеи. Особенно с точки зрения оптимизации. Что в конечном счете и крупным компаниям позволяет клепать модельки быстрее и лучше. А еще маленькие команды кажется чаще рады поделиться исходным кодом.

В мире AI сейчас доминируют технологические гиганты, такие как Google, Meta, OpenAI и DeepMind. У них есть огромные ресурсы - тысячи инженеров и исследователей, а тонны GPU для тренировки моделей с сотнями миллиардов параметров. Но значит ли это, что небольшим исследовательским группам и стартапам нечем заняться в AI? Вовсе нет!

C дивана мне в голову пришло сразу несколько направлений, где небольшие команды могут проявить себя и сделать значимый вклад:

- Тюнинг и адаптация открытых моделей вроде LLaMA, Stable Diffusion под конкретные прикладные задачи. Большие foundation модели дают отличную базу, но для многих реальных применений их нужно дообучать на специфичных данных.

- Дистилляция знаний (distillation) и сжатие моделей - позволяет уменьшить размер моделей в разы и даже на порядки без существенной потери качества. Это критично для многих сценариев использования AI на мобильных устройствах и в реальном времени.

- Исследование ошибок и уязвимостей больших моделей, разработка методов для их детекции и устранения. Даже лучшие модели вроде GPT-4 могут выдавать неверные факты, проявлять предвзятость, быть подвержены adversarial атакам. Здесь огромное поле для исследований.

- Разработка новых архитектур, механизмов внимания, техник обучения, которые позволяют эффективнее обучать модели. Яркий пример - техника chain-of-thought prompting, которая значительно улучшает способности LLM к рассуждению, при этом не требуя дообучения модели. Статья с ее описанием, уже набрала более 4500 цитирований! То есть не нужны тысячи видеокарт, чтобы создать что-то влиятельное.

- Применение AI в узких предметных областях, где нужна глубокая экспертиза в конкретной сфере - медицине, биологии, физике, экономике и т.д. Большие универсальные модели не всегда лучше работают, чем модели обученные на специфичных данных.

Есть немало примеров небольших групп, которые успешно конкурируют с гигантами индустрии. Например, парижский стартап Mistral, где изанчально было 3 человека (да, соглашусь, не совсем корректный пример, потому что компания подняла $115 млн в первые недели существования). Из близкого многим читателям, опять же, Tinkoff Research - команда из 12 человек (20 со студентами) в компании, которая никогда AI-ресерчем до этого не занималась, умудрилась опубликовать 4 статьи на NeurIPS 2023 (об одной из них писал тут). Или вот Midjourney с командой менее 50 человек (а инженеров и того меньше) создали и дальше двигают одну из лучших в мире технологий генерации изображений по тексту - восхищаюсь их результатами. Все благодаря фокусу на конкретной задаче и хитрым идеям.

Поэтому не стоит думать, что если у вас нет ресурсов тренировать гигантские модели, то вам нечем заняться в AI (я часто слышу такое от студентов, с которыми общаюсь). Наоборот, именно небольшие креативные команды зачастую делают прорывы и открывают новые направления, которые потом подхватывают большие компании. Главное - выбрать правильный фокус и упорно работать над решением важных проблем на стыке AI и конкретных предметных областей.

@ai_newz

BY эйай ньюз


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/ai_newz/2651

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation.
from nl


Telegram эйай ньюз
FROM American