Казахстанские стартаперы разрабатывают будущего конкурента OpenAI

24048

В сфере генерации медиа и видео

Ерзат Дулат
Ерзат Дулат
Фото: Елигай Жумагалиева

Обычно публикации о стартапах пишутся или в форме интервью, где герой отвечает на вопросы о своем проекте, или очерка с рассказом о становлении бизнеса. О том, что делает 28-летний уроженец Алматы Ерзат Дулат, хочется написать сценарий для кинохита, что-то вроде «Игры в имитацию».

Как наградить ИИ за хорошее поведение

Начинаться фильм должен с эпизода, где Ерзат представляет свой стартап венчурному инвестору Мурату Абдрахманову. В мае 2023 года он «питчил» Higgsfield AI - компанию, которая занимается разработкой фундаментального искусственного интеллекта.

- Higgsfield AI — будущий конкурент OpenAI (создателя СhatGPT), только в сфере генерации медиа и видео, - объяснял Ерзат бизнес-ангелу. - Конкретно мы занимаемся Reinforcement Learning (обучение с подкреплением). Это такой раздел искусственного интеллекта, где у вас есть агент, который находится в какой-то среде. Средой может быть компьютерная игра, или шахматы, или более сложная среда. И агент пытается оптимизировать функцию награды. Если это компьютерная игра, он пытается оптимизировать очки, если это шахматы, то количество выигранных партий. Reinforcement Learning — это путь к сильному ИИ, который может превзойти человеческий интеллект. Тот же ChatGPT был обучен с помощью Reinforcement Learning: в нем наградой для модели служит human feedback или human preferences, то есть Chat GPT старается получить награду за то, что его ответ понравился пользователю.

Сцена питчинга кончается тем, что инвестор одобрительно кивает и подписывает договор на pre-seed-раунд финансирования.

Следующий эпизод — ретроспективный. Ерзат вспоминает себя в школе, легендарной алматинской РФМШ, на уроках физики. Учитель, видя его успехи, отправляет Ерзата на олимпиады по предмету, и будущий стартапер выигрывает их одну за одной. В старших классах Ерзат начинает заниматься software engineering — программной инженерией, то есть созданием компьютерных систем и приложений для решения реальных проблем. Если точнее, то машинным обучением, где пригодились его знания математики и физики.

Далее в кадре — Ерзат перед монитором, общается в специализированной социальной сети для программистов GitHub. Там он выкладывает свои разработки — имплементацию алгоритмов с открытым исходным кодом в искусственном интеллекте. У него множество подписчиков, его идеи применяют в университетах уровня Гарварда и лучших исследовательских лабораториях США и других стран.

Следующий этап — работа в крупных казахстанских компаниях. Редкий специалист по машинному обучению, один из первых в Казахстане, Ерзат обучает других айтишников, формирует целые отделы машинного обучения в таких компаниях, как Kaspi.kz, Kolesa, ERG. В кадре — внимательные лица недавних выпускников мехмата МГУ, которым наш герой объясняет отличия современного machine learning (при этом сам Ерзат окончил только РФМШ и не учился в университете).

Почему невыгодно продавать лопаты

Переходим к эпизоду знакомства Ерзата с Николаем Давыдовым. Венчурный инвестор, известный по фильму Юрия Дудя о Кремниевой долине, советует казахстанцу заняться своим бизнесом и сводит с его с Алексом Машрабовым. Алекс - опытный фаундер, за спиной которого «экзит» в $160 млн и работа директором по ИИ в соцсети Snapchat. В студенческие годы Алекс был финалистом мирового чемпионата по спортивному программированию.

Молодые люди решают запустить стартап, позволяющий каждому персонализировать модель под свои предпочтения, где Reinforcement Learning будет неотъемлемой частью. После триумфа ChatGPT в мире технологий уже все понимают, что за «обучением с подкреплением» будущее. В июне 2023 года они запускают стартап Higgsfield AI.

- Когда мы выбрали для своего стартапа обучение больших моделей, то стали смотреть, куда можно двигаться. Есть два пути: первый — tooling, то есть предоставлять инструменты, проще говоря, продавать всем лопаты, чтобы они могли делать свои модели искусственного интеллекта. Второй — попробовать сделать свою модель. Это более рискованный бизнес, чем продавать инструменты. Но мы решили рискнуть, - говорит Ерзат.

Направление выбрано — теперь нужно было определить нишу для бизнеса. Проще всего создать языковую модель по типу ChatGPT, но в этой нише уже тесно от конкурентов. Вторая возможность - кодовая генерация, у нее огромный рынок, но «прилавки» на нем также не пустуют. Генерировать изображения с помощью ИИ тоже уже многие умеют. А вот генерация видео - пока редкость.

- Сильных конкурентов нет, а тех, кто есть, можно быстро догнать. Да и опыт Алекса в Snapchat является большим преимуществом для видеогенерации, - обосновывает выбор Ерзат. - Идея была разработать такую технологию, чтобы вообще все могли обучать модели таких больших размеров, как у OpenAI, - дать каждому возможность создавать видео одной лишь мыслью.

Как собрать dream team

Но вернемся к нашему сценарию, ведь впереди — экшен-сцены набора команды, перед которой меркнут все 12 друзей Оушена.

Первый - Анвар Умаров. Инженер с редчайшей экспертизой, он умеет выстраивать такой компьютерный кластер, который сможет запускать тренировку большой нейронной сети. В США Анвар разрабатывал обеспечение для электрических автомобилей — это сложнейшая инженерная задача, где нужно соблюдать высокие требования к безопасности и производительности.

Второй - Азат Хайров, выпускник РФШМ, стипендиат «Болашака», создатель программного обеспечения для биржи компании PWC в Швейцарии. Азата и в Казахстане хорошо знают — он ключевой разработчик систем «Сергек», писал для систем видеонаблюдения и инфраструктуру, и нейронную сеть.

Третий - Адильхан Сарсенов, призер международных олимпиад по физике, выпускник кафедры теоретической физики Назарбаев Университета. Он занимался инфраструктурой для обучения нейронных сетей в топовом американском стартапе из Y Combinator - Active Loop.

Четвертый - Султан Нурмухамедов, один из лучших студентов кафедры математики Назарбаев Университета и выпускник Школы анализа данных «Яндекса». До начала войны это была одна из самых престижных ИТ-школ со строжайшим отбором, куда могли поступить единицы из лучших студентов мировых вузов. Едва ли найдется десяток казахстанцев, которые окончили эту школу.

Пятый - Айбек Бекбаев, талантливый молодой математик, получивший образование в Германии. Для команды Higgsfield он является ключевым сотрудником в сфере оптимизации нейронных сетей.

Команда Higgsfield AI
Команда Higgsfield AI: Айбек Бекбаев, Ерзат Дулат, Султан Нурмухамедов, Анвар Умаров, Адильхан Сарсенов
Фото: Елигай Жумагалиева

- Таких специалистов найти очень тяжело. И это была одна из вещей, на которую мы делали ставку, — то, что у нас есть доступ к underrepresented («недопредставленным») талантам. Казахстанцы еще не слишком представлены на мировой ИТ-арене, а уметь находить мирового уровня разработчиков в машинном обучении - большая ценность, - говорит Ерзат.

«Искусственные» люди для рекламы в соцсетях

Команда собрана, участники рассаживаются за столы и обсуждают, как сделают технологию, которая будет создавать видео по описанию. Они хотят научить модель генерировать очень правдоподобное изображение людей. Но разработчики не видят смысла в том, чтобы, скажем, «снимать» фильмы без живых актеров для Голливуда.

- Мы решили создавать технологии общего назначения в сферах, в которых есть потребность в Generative AI (генеративном ИИ) прямо сейчас, и сфокусироваться на Social Media Marketing, - говорит Ерзат.

Начинается дискуссия — не научится ли их модель производить дип-фейки и прочие нехорошие вещи? Как запретить модели это делать, ведь она самообучающаяся и у нее могут сами собой возникнуть незаложенные ранее свойства? В ИТ-среде контроль за ИИ называется AI alignment, айтишники так и говорят - «алайнить модель».

- Технически AI alignment решается Reinforcement Learning. Мы можем давать модели награду за поведение, которое нам нравится, и наоборот — «наказывать» ее, давать отрицательную награду, если не нравится. И модель будет стараться не делать вещи, за которые вы ее «наказываете». Мы обучим модель с помощью Reinforcement Learning так, чтобы она не генерировала какие-то неприемлемые видео, - разъясняет решение проблемы Ерзат.

Финальная сцена нашего фильма — аплодисменты на подписании контракта с фондом Menlo Ventures, одним из столпов Кремниевой долины. Menlo Ventures - AI-фонд номер один среди венчурных фондов, недавно вложивший сотни миллионов в прямого конкурента OpenAI – компанию Anthropic. Инвестиции seed-раунда в Higgsfield AI составят $8 млн, но это только начало.

Учитывая отношение Мурата Абдрахманова, получается, что и в Казахстане, и Кремниевой долине уверены, что Higgsfield AI поднимется на тот же уровень, как и ChatGPT, а, может, и превзойдет его.

   Если вы обнаружили ошибку или опечатку, выделите фрагмент текста с ошибкой и нажмите CTRL+Enter

Орфографическая ошибка в тексте:

Отмена Отправить