group-telegram.com/seeallochnaya/2177
Last Update:
Bubeck:
— то что мы делаем с о1 — оно чрезвычайно масштабируемо, все как бы возникает само собой, мы ничего вручную не программировали намертво, чтобы научить модель чему-то. Всё что вы видите, мы это не говорили модели, типа «эй, ты должна перепроверить себя или вернуться на пару шагов в решении, так как застряла». Мы ей не давали никакую тактику, всё это выучилось само через Reinforcement Learning. [прим.: с выходом o3 этот тезис стал ещё более сильным, ибо прогресс в масштабировании за 3 месяца существеннен]
— Да, для некоторых задач может быть мало данных для тренировки, но у нас есть синтетические данные, мы можем прям писать учебник для AI контролируемо и скармливать модели во время тренировки
— Я думаю, что креативность — это распознавание паттернов на некотором уровне абстракции (не в лоб, а видеть лес за деревьями), и это навык которому можно научить через большое количество синтетики.
====
И на этом всё. Bubeck выиграл дебаты, если верить голосованию аудитории (хотя до начала, если я правильно рассмотрел результаты — они сильно отсвечивали и было плохо видно — люди не были согласны с оригинальным тезисом).
BY Сиолошная
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/seeallochnaya/2177