Рассказать фильм
Как построить ИИ-компанию, не имея высшего образования, и заработать репутацию в Кремниевой долине, не покидая Казахстан
Искусственный интеллект — одна из самых горячих тем последних лет. Эта технология вскружила голову всем — мировым компаниям, инвесторам и простым интернет-пользователям.
По данным Crunchbase, по итогам прошлого года объем инвестиций в стартапы в области ИИ во всем мире достиг почти $50 млрд, что на 9 % больше, чем годом ранее ($45,8 млрд). OpenAI, Anthropic и Inflection AI сообща сумели привлечь в течение 2023 года около $18 млрд. Более того, данные публичной отчетности технологических компаний США за IV квартал 2023 года показывают сотни миллиардов долларов, направляемых на развитие технологий ИИ. По прогнозам исследовательского агентства Statista, рынок ИИ достигнет $184 млрд к концу 2024 года. «К 2030 году рынок достигнет $826,7 млрд, ежегодно увеличиваясь на 28,46 %. К тому моменту ожидается, что число ИИ-стартапов превысит 70 000», — отмечают эксперты.
28-летний исследователь ИИ, участник рейтинга «30 до 30» Forbes Kazakhstan Ерзат Дулат говорит, что одним из самых перспективных направлений внутри технологий искусственного интеллекта являются проекты, связанные с генерированием видео. Производство контента и число его создателей будут только увеличиваться год от года. В 2023 году Ерзат вместе с партнером Алексом Машрабовым, бывшим главой отдела генеративного ИИ в Snap Inc, создали стартап Higgsfield AI. Два специалиста объединили усилия, чтобы запустить новаторскую ИИ-платформу для создания и редактирования видео по текстовому запросу. В апреле 2024-го стартап объявил о привлечении в рамках preseed-раунда $8 млн. Ерзат уверен: это только начало.
С благословения Альтмана
Ерзат родился в Алматы в семье врачей и уже с детства тянулся к точным наукам. Сидя за партой знаменитой РФМШ, щелкал как семечки сложные задачи по физике. Учителя отправляли способного юношу на олимпиады, и тот их выигрывал одну за другой. В старших классах начал увлекаться программной инженерией, созданием компьютерных систем и приложений для решения реальных задач.
Одним из тех, кто вдохновил Ерзата прийти в программирование, был Арман Сулейменов, основатель школы программирования nFactorial School. «Это было в 2013 году. Я к разработке относился тогда, как к чему-то уж слишком прикладному. Больше тянулся к теоретическому — физике и математике. Но со временем меня увлекло сначала web-программирование, потом мобильная разработка», — вспоминает собеседник. Однако программирование быстро наскучило, поскольку все приходилось делать вручную: программа выдает только то, что написал сам разработчик, и ничего больше. «По сути, это набор инструкций», — поясняет Ерзат.
Все изменилось после прочтения «Физики будущего» американского физика-теоретика Митио Каку, популяризатора науки и автора ряда научно-популярных книг. Ерзат вспоминает, как его увлекла глава про искусственный интеллект, где Каку писал, что это самая близкая революционная инновация для человечества (к слову, книга была написана еще в 2011 году). Ерзат начал акцентированно изучать материалы об ИИ и машинном обучении. Несмотря на то что одноклассники все как один поступали в престижные университеты, он решил… не идти в вуз. Заявляет, что в Казахстане попросту не было нужного ему уровня образования, а учеба за границей была слишком дорогой для семьи. Поэтому Ерзат начал сразу работать, параллельно проводя часы напролет в интернете за самообразованием.
В 2014 году он зарегистрировался в специализированной социальной сети для программистов GitHub и начал публиковать свои идеи — в частности, демонстрировал имплементацию алгоритмов с открытым исходным кодом в ИИ. За год у него набралось сотни новых подписчиков — для мира разработчиков это равносильно тому, чтобы быть инфлюенсером-миллионником. Идеи казахстанца стали обсуждать, а затем даже использовать в Гарварде и других университетах и ведущих исследовательских лабораториях. Более того, личное сообщение Ерзату с комплиментарным отзывом о его исследованиях написал сам Сэм Альтман, глава OpenAI, создавшей одну из самых продвинутых на сегодня нейросетей ChatGPT.
При этом сам Ерзат продолжал спокойно жить в Казахстане и работать в крупных компаниях. Он стал одним из первых в стране крутых специалистов по машинному обучению и ИИ. С 2014 года начал обучать других разработчиков и сформировал целые отделы машинного обучения в таких компаниях, как Kaspi.kz, Kolesa, ERG. К моменту создания собственного стартапа Ерзат по праву считался одним из самых погруженных в тему исследователей ИИ, что стало определяющим фактором в успешном поиске партнеров и инвесторов для собственного стартапа.
«В 2018 году на меня вышла OpenAI. После публикации одной из работ про machine learning мне написал соучредитель компании Джон Шульман и предложил присоединиться к команде. Это уважаемый человек в мире ИИ, создатель Proximal policy optimization (PPO) — алгоритма в области reinforcement learning, который тренирует функцию принятия решений компьютерного агента для выполнения сложных задач. На этом алгоритме, например, обучали ChatGPT. Но я все же решил заниматься своими проектами», — вспоминает Ерзат.
Эволюция идеи
Весной 2023 года Ерзат начал собственный ИИ-стартап, решив, что набрал достаточно знаний для того, чтобы создать востребованный для мировой индустрии продукт. Подстегнуло и то, что ажиотаж вокруг темы ИИ становится все больше.
Первоначально Ерзат задумал сделать Higgsfield AI инфраструктурным стартапом, то есть программной платформой для обучения больших нейронных сетей. «Платформа создавалась для нейронных сетей с числом параметров от миллиарда до одного триллиона (1,76 трлн параметров насчитывает самая продвинутая на данный момент языковая модель в мире — GPT-4. — Прим. авт.). Хотел сделать такую платформу, где даже начинающий специалист-программист мог бы тренировать нейронные сети», — объясняет собеседник.
В мае прошлого года Ерзат собрал первую презентацию стартапа и пришел к известному венчурному инвестору Мурату Абдрахманову. «Я запитчил идею — он, хоть и не знал всех деталей об ИИ, задавал правильные вопросы. Например, спросил, разрабатывает ли параллельно кто-то еще подобное решение и почему именно я успею сделать его раньше, качественнее. Мне удалось доказать, что я действительно обладаю обширными знаниями, и Абдрахманов в меня поверил», — вспоминает собеседник.
Бизнесмен вложил в стартап $250 тыс. На эти деньги Ерзат собрал команду, которая занялась разработкой. Параллельно искал опытного кофаундера, который смог бы помочь с продвижением проекта в США. Помог в поиске Николай Давыдов, венчурный инвестор из Кремниевой долины. Ему Дулат также представил свой стартап, и тот предложил познакомиться с Алексом Машрабовым. Так к Higgsfield AI присоединился опытный фаундер, за спиной которого «экзит» в $160 млн и работа директором по ИИ в Snapchat.
С приходом сильного кофаундера, отмечает Ерзат, все в компании поняли, что не стоит зацикливаться на идее с инфраструктурой для обучения нейронных сетей. После тестирования различных гипотез команда решила остановиться на создании foundation AI-model, которая бы могла заниматься производством контента. По сути, это то, над чем работают OpenAI и Antrophic. «Генерировать изображения с помощью ИИ, например, многие уже умели. А вот генерация видео в прошлом году была и остается до сих пор большой редкостью. На решение этой сложной задачи требовались петабайты данных, большое количество денег, а главное — времени. Но сложность нас еще сильнее мотивировала», — говорит собеседник.
Вопрос с деньгами решали за счет ангельских инвестиций, в совокупности в прошлом году удалось привлечь порядка $1 млн. Деньги тратили быстро, ведь, чтобы натренировать AI генерировать видео по запросу, нужно много вычислительных мощностей, над проектом работали люди, которым нужно было платить. «Кстати, команда у нас полностью из Казахстана, большинство из них — мои знакомые и друзья, выпускники РФМШ. Это люди, которые пришли к нам не просто работать за зарплату, а участвовать в большом путешествии», — с гордостью замечает Ерзат.
ИИ для всего
В начале 2024 года состоялся официальный запуск Higgsfield AI. Платформа представляет собой мобильное приложение Diffuse, основанное на пользовательской модели преобразования текста в видео. Оно может создавать видео с нуля, используя собственные инструменты, среди которых набор предварительно сгенерированных клипов и редактор подсказок. Также можно сделать селфи, залить фотографию в приложение, после чего оно создаст клип с вами в главной роли.
Ерзат подчеркивает, что важной задачей было сделать приложение максимально понятным наибольшему числу пользователей. При этом важно отметить, что Higgsfield AI вышел на рынок, на котором уже есть много заметных игроков, таких как Stable Video, Runway, HeyGen, Haiper и Sora. Однако казахстанский стартап отличается тем, что его ИИ-модели предназначены для мобильных устройств на базе iOS и Android, тогда как продукты конкурентов существуют в виде веб-сайтов, некоторые доступны лишь узкому кругу разработчиков.
«В общем, получился продукт для людей, которые хотят создавать высококачественный контент, не требующий специальных навыков или оборудования. Наша модель поддерживает очень реалистичные движения и выражения. Мы являемся первопроходцами в разработке «мировых моделей» для потребителей, которые позволят нам создавать лучшие в своем классе системы генерации и редактирования видео с высоким уровнем контроля», — уверен в себе Ерзат.
В апреле 2024 года Higgsfield AI привлек значительный объем инвестиций для ранней стадии — $8 млн от венчурной компании Menlo Ventures, что свидетельствует о большом интересе со стороны инвесторов. К слову, уже летом Menlo Ventures и компания по безопасности и исследованиям в области искусственного интеллекта Anthropic запустили фонд Anthology размером $100 млн для ускорения инноваций в области ИИ. Полученные от венчурной компании средства Ерзат направил на дальнейшее развитие и совершенствование продукта, разработку мощного инструмента для создания видео.
Среди конкурентов, отмечает собеседник, в первую очередь можно выделить Sora от OpenAI. Однако до сих пор доступ к Sora сильно ограничен, и, похоже, компания ориентирует ее на обеспеченных творческих людей, таких как голливудские режиссеры, а не на любителей.
Сегодня мобильным приложением Diffuse пользуется ежемесячно более 400 тыс. авторов контента. Популярность приложение завоевало благодаря социальным сетям, в особенности TikTok. В начале года доступ к приложению был бесплатным, что позволило набрать хорошую базу пользователей. Но сейчас Ерзат и Алекс перешли на простую и понятную подписную модель. Подписка на Diffuse стоит в месяц порядка $18, но, если пользователь захочет оформить подписку на год, она обойдется чуть дороже — $30.
По словам Ерзата, в течение следующих нескольких лет ИИ-контент будет совершенствоваться. «В какой-то момент сервисы ИИ смогут генерировать такой контент, который будет практически неотличим от того, что создает человек. Многие могут со мной не согласиться, но я люблю смотреть на перспективу. Однажды искусственный интеллект создаст анимационный фильм или сериал», — убежден он. В планах Ерзата — улучшать инфраструктуру Higgsfield AI, уже сейчас, используя программную платформу стартапа, можно генерировать видео и звук. «В будущем мы хотим сделать так, чтобы наша платформа в роли ассистента могла применяться везде — быть, к примеру, как художником, так и финансистом, аналитиком. Любым специалистом», — с воодушевлением продолжает собеседник.
При этом он оговаривается, что ИИ-сфера при всей своей инновационности имеет массу рисков, поэтому ее важно регулировать. «Пользователь должен знать, что видео, которое он смотрит, сгенерировано нейросетью. Некоторые государства уже работают в этом направлении. К примеру, в Евросоюзе появились AI-акты, где в том числе указан риск нашествия дипфейков и меры, как с этим бороться. Казахстан тоже должен двигаться в эту сторону», — считает Ерзат. Если решить все вопросы, связанные с безопасностью, можно будет управлять колоссальным потенциалом ИИ. Ведь чем активнее искусственный интеллект будет развиваться, тем быстрее и сильнее он будет влиять на мировую экономику.
«Higgsfield AI сейчас находится в процессе завершения еще одной сделки по привлечению инвестиций. Сумма будет значительно больше той, что мы привлекали ранее. Но об этом мы сообщим позже. Хотим анонсировать тогда, когда еще сильнее усовершенствуем наше приложение и систему в целом. Проект, хоть и будет в мире представлен как международный, но я всегда буду подчеркивать, что у него казахские корни. Ведь большинство сотрудников — наши ребята. Молодое поколение разработчиков уже сейчас меняет мировой имидж страны, и это здорово», — улыбается Ерзат.