Telegram Group Search
Король умер, да здравствует король!

Протестировал новую версию китайского 3D-генератора Hunyuan 2.5.

Итак, лягушка. Первое, на что бросается в глаза — адаптивная детализация, полигонов больше там, где они действительно нужны. Сетка отлично следует за формой — это особенно заметно по сердцу и орнаменту. Впервые на моей памяти нейронка так хорошо построила рельеф. Модель получилась симметричной, без видимых артефактов вроде дыр и пересечений. Только на лапе почему-то появилась неуместная ямка.

Текстура выглядит хуже. Задняя часть представляет собой сплошной визуальный шум, и даже спереди на сердце видны артефакты.

У предыдущих поколений image-to-3D моделей ворон либо получался неровным, либо симметричным, но с раздвоенным клювом. Просто отзеркалить фигурку по вертикальной оси нельзя, однако Hunyuan 2.5 в основном справляется: укладка перьев симметричная, при этом голова выглядит вполне естественно. Впрочем, на затылке рельеф отсутствует, а на правой лапе обнаружился лишний палец. Текстуры тоже далеки от идеала и не передают особенностей оригинальной картинки.

Фигурка Ктулху также приятно удивляет детализацией и симметричностью. Сетка немного хаотичная, но органические формы переданы реалистично. Текстура покрыта шумными деталями, однако судя по бликам, roughness map удался неплохо.

Подведем итоги. Сравнение с предыдущей серией экспериментов (8 моделей, Tripo3d, TRELLIS) говорит само за себя. Прирост в качестве значительный. Лягушку и Ктулху можно спокойно печатать на 3D-принтере без постобработки. Такими темпами вскоре придется обновлять тест, добавляя сложные формы, например, скульптуры людей.

Сейчас этот генератор доступен онлайн по адресу 3d.hunyuan.tencent.com (осторожно, интерфейс на китайском) и позволяет создавать до 20 моделей в день. А еще есть надежда на релиз в open source. По крайней мере, версия 2.0 представлена в pinokio и запускается на достаточно широком наборе конфигураций железа.
#нейронки #imageto3d #DIY
12🔥3
Прикоснуться к небесам

Наши представления о космосе одновременно и точно отражают действительность, и сильно от нее отличаются. Когда думаешь о звездах и туманностях, первым делом представляешь красочные снимки телескопов. Но практически все эти изображения композитные — это комбинация нескольких диапазонов излучения, где видимый спектр лишь часть картинки.

О том, как создаются такие изображения, пишут Никита Ляшкевич и Зелёный кот в своих статьях. Также Никита подробно рассказывает об этом в выпуске подкаста The Big Beard Theory.

Взгляните на первый коллаж. Это остатки сверхновой Кассиопея, представленные комбинацией рентгеновского снимка (оранжевый от телескопа Chandra, фиолетовый от NuStar), оптического диапазона (зелёный, синий) и инфракрасного излучения (зеленый, белый и синий). Чтобы получить этот кадр, потребовалось 9 сеансов наблюдений общей продолжительностью 11 дней 13 часов 58 минут. Вот это выдержка!

#космос #астрономия #научная_визуализация
👍8
Но что, если бы мы могли увидеть космические объекты в трёхмерной форме? Теперь и это возможно. Астрономы использовали данные рентгеновской обсерватории Чандра и компьютерное моделирование, чтобы создать объемные модели четырех космических объектов: Кассиопеи A, G292.0+1.8, Петли Лебедя и звезды типа Т Тельца BP Tau. Рендеры создавались с использованием наблюдательных данных и компьютерного моделирования.

Эти модели даже можно распечатать на 3D-принтере. Кто откажется от Петли Лебедя на рабочем столе? Пожалуй, это лучший способ прикоснуться к небесам до изобретения варп-двигателя.

#космос #астрономия #3D_моделирование #научная_визуализация
👍8🔥61
Представьте: утром вы наблюдаете, как расплавленный металл превращается в бронзовый топор по технологиям пятитысячелетней давности, а вечером обсуждаете подготовку к полету на Марс с человеком, создававшим первый армянский спутник. Такая возможность будет у каждого посетителя Фестиваля науки в Ереване 3 мая.

Мне кажется, именно такие временные параллели помогают почувствовать ускорение технологического прогресса. Когда путь от бронзы до космоса сжимается до нескольких часов, задумываешься: а с какой скоростью меняется мир прямо сейчас?

Радостно видеть, как раздробленные сообщества пересобираются. Научпоп снова собирает единомышленников, несмотря на все препятствия. Наверное, это и есть признак настоящего комьюнити — способность находить друг друга даже в трудные времена. Это искренне хочется поддержать.

Я бы с удовольствием провёл там целый день — от научпоп лекций до вечерних дискуссий, но, к сожалению, в это время буду в море (об этом расскажу позже). Жаль пропускать такую концентрацию интересных тем и близких по духу людей, особенно Александра Соколова, который годами борется с лженаукой и научными мифами.

Если кто-то из вас будет там — дайте знать, поделитесь впечатлениями.

#мероприятия #научпоп #лекции
9👍2
Media is too big
VIEW IN TELEGRAM
Голографические мечты инженеров

Из всех технологий из фантастических вселенных — от «Звездных войн» до «Аватара» — интерактивные голограммы самые очевидные и одновременно неуловимые. Ближе всего к ним подобрались шоу дронов, но это масштаб стадионов, а не квартир.

Я годами наблюдаю за попытками создать компактные голографические интерфейсы. Сомневаюсь в их удобстве, но эта область настоящий полигон инженерной изобретательности.

Пожалуй, самым прямолинейным решением оказались массивы светодиодов на вращающихся рамах. Взгляните на голографические дисплеи Hypervsn — это буквально массив вентиляторов с подсветкой лопастей. Просто, но эффектно. Кажется, они неплохо продаются.

Другая инженерная школа пошла по пути подсветки взвешенных частиц. Displair проецируют изображение на тонкий слой пара — будто рисуют светом по дыму. В OptiTrap пытались объединить этот подход с акустической левитацией. Маленькую каплю удерживают в воздухе ультразвуковые волны, одновременно подсвечиваем ее лазером — и вот, перед вами парит 3D-изображение. В BYU экспериментировали с оптическими пинцетами.

Японская Aerial 3D поджигала воздух. Лазеры возбуждают атомы кислорода и азота, и плазменная точка возникает как бы из ничего. При высокой частоте повторения формируется подобие изображения без материального носителя.

В апреле исследователи из UPNA показали FlexiVol — еще один остроумный подход. Похоже, что он вдохновлен наработками Voxon, где рассеиватель с высокой частотой и направляет свет в стороны. Однако в основе FlexiVol эластичные ленты, и они позволяют дотрагиваться до изображения.

К сожалению, все эти идеи оказываются не очень практичными, но неизменно — изобретательными. Удивляет, какими разными путями инженеры штурмуют одну вершину. От вращающихся светодиодов до ионизации воздуха — такой спектр подходов говорит о неистощимости человеческой изобретательности.
6🔥5😁1
От слов к телу: путь к настоящему ИИ

Вы сидите на холодном складе в грязном квартале Мишен в Сан-Франциско. День за днем управляете роборуками через перчатки с трекингом движений. Медленно, с усилием складываете одежду и собираете коробки — все ради одной цели: научить нейросеть действовать в реальном мире.

Добро пожаловать в штаб-квартиру Physical Intelligence, стартапа, основанного выходцами из DeepMind. Их цель — не чат-бот, а универсальный робот, способный взаимодействовать с физическим миром, как человек.

Но в отличие от разработчиков ChatGPT, они не могут положиться на залежи интернет-текстов. Посты с Reddit и статьи из Википедии не научат машину держать чашку или гладить рубашку. Сенсорику, телеметрию и управляющие сигналы приходится собирать вручную. Человек, словно кукловод, ведет за собой робота, формируя эталонные движения и реакции. Это медленно, дорого и плохо масштабируется: один оператор не может "наработать" больше 24 часов данных в сутки.

Теперь переместимся на конференцию AI Ascent 2025, где выступает Джим Фан из NVIDIA. Он показывает, как в симуляции за два часа можно пройти путь, на который в реальном мире ушло бы десять лет: гуманоидные роботы учатся двигаться в виртуальной реальности.

Но главное — не это. Фан говорит о том, что он называет физическим Тестом Тьюринга:

Попросите убраться и приготовить обед. Если вы не сможете отличить, кто это сделал — человек или робот — тест пройден


Пока этот тест не прошел никто. Потому что нейросети по-прежнему не имеют телесного опыта этих действий. Это ключевая мысль, тем более что звучит она от директора по ИИ в NVIDIA.

Языковые модели вроде GPT, Claude или Gemini живут в пещере Платона. Они изучают мир по теням — по текстам, изображениям, аудио. Они видят описания, но не проживают реальность.

Настоящий интеллект не просто вычисляет. Он чувствует и действует. Он обретает тело, через которое познает: ошибки, сопротивление, вес, равновесие, трение, успех. Все это — то, что философы называют qualia — субъективные, необъяснимые переживания, формирующие "я". Вот почему так важно дать роботам, например, осязание.

Чтобы пройти физический Тест Тьюринга, машине нужно не больше слоев и токенов, а тело и среда, в которой она учится. Как у детей: игрушки, касания, падения, неожиданности. Ведь и наш мозг формируется не текстами, а опытом.

Но правда в том, что и мы сами смотрим на тени на стене пещеры. Они фактурные, цветные, пахнущие, — но физики напоминают: вселенная гораздо сложнее, чем подсказывают чувства.

А каким будет разум, способный чувствовать тоньше? Острее? Через десятки сенсоров, которых у нас нет, через сигналы, которые мы не в состоянии воспринять? Возможно, путь к сверхразуму — не в вычислительной мощности, а в сенсорной плотности. В телесности. В новых каналах восприятия и способах взаимодействия с миром, которые для нас недоступны.

Путь — в выходе из пещеры.
16👍6🔥1
Зачем говорить с китами?

Закончилась моя вахта в экспедиции по мониторингу морских млекопитающих у Кольского полуострова в компании спеца по морским млекопитающим Анастасии Куницы и академического эколога, создателя Russian Travel Geek Артема Акшинцева.

В этих водах наблюдения никогда не проводились на постоянной основе. У ученых нет понимания, сколько животных там появляется и как они мигрируют. Яркое напоминание о том, как мало мы о них знаем. Всю поездку я читал переведенную с помощью Gemini книгу How To Speak Whale, вышедшую в 2022 году. Она не дает четкого ответа на вопрос «как говорить с китами», скорее объясняет, почему стоит попробовать. Однако, за три года, прошедшие с печати, этой задачей занимались в Google в партнерстве с The Wild Dolphin Project и Технологическим институтом Джорджии. В апреле они представили проект DolphinGemma.

DolphinGemma — нейросеть, вдохновленная архитектурой больших языковых моделей, но работающая со звуком. Ее обучили на записях одной группы дельфинов с Багам. С 1985 года команда WDP документирует их жизнь, взаимодействия и вокализации.

DolphinGemma работает как аудиопроцессор: анализирует последовательности естественных звуков дельфинов, выявляет закономерности и структуры, а затем прогнозирует вероятные следующие звуки в последовательности. Примерно так же большие языковые модели предсказывают следующее слово в предложении.

В медиа ее сразу окрестили «переводчиком с дельфиньего». Однако большинство серьезных исследователей морских млекопитающих, включая Куницу, относятся к этой идее скептически: полноценного языка у морских млекопитающих может и не быть. DolphinGemma — не переводчик, а аналитический инструмент.

Как это работает

Модель прослушивает, какие звуки дельфины издают один за другим, и выявляет устойчивые паттерны. Например, если после звуков A и B чаще всего следует звук C — это может быть отдельный сигнал A-B-C. Тогда исследователи возвращаются к видео и смотрят, что в такие моменты делали дельфины. Допустим, в 80% случаев они играли — значит, можно предположить, что это типичная игровая вокализация.

Главная фишка в том, что модель находит такие закономерности в терабайтах данных намного быстрее, чем это сделал бы человек, годами прослушивая записи. С ее помощью можно обнаруживать неизвестные звуковые паттерны, которые могли ускользнуть от человеческого внимания, а затем попытаться найти их связь с действиями дельфинов.

Эксперимент с двусторонней коммуникацией

В то же время у DolphinGemma есть и другая функция — генерация звуков. Она может создавать сигналы, похожие на дельфиньи — а значит, животным будет проще их воспроизвести. Исследователи планируют применить их в экспериментах.

Логика такая: люди создают искусственные свисты для конкретных предметов — шарфов, водорослей, игрушек. Они ныряют, воспроизводят синтетические звуки и демонстративно обмениваются предметами между собой — так, чтобы дельфины это видели и поняли правила игры: звук = предмет.

Надежда на то, что любопытные дельфины начнут имитировать эти звуки, когда захотят получить конкретный предмет. Специальный носимый компьютер на базе смартфона Pixel в реальном времени распознает, какой именно звук имитирует дельфин, и через подводные наушники сообщит исследователю: «Дельфин просит шарф». Исследователь даст ему шарф, закрепляя связь звук-предмет.

Это не язык, скорее простая сигнальная система, как у людей и собак, но если животные научатся ею пользоваться — это скажет многое об их разуме.

В сущности, это и есть ксенолингвистика — попытка наладить контакт с существами, у которых совершенно иная среда обитания, восприятие и способности. Только теперь перед нами не стереотипные зеленые человечки, а вполне земные соседи. И это свидетельство важного сдвига. Мы наконец-то начинаем изучать другой разум, а не просто искать отражение самих себя, как в Солярисе Лема.

Когда люди впервые услышали песни китов, это изменило отношение к ним. Кто знает, что случится, если мы поймем, о чем они поют?
🔥2010👍10
2025/07/14 21:59:28
Back to Top
HTML Embed Code: