"Наша цель - миллиардное IPO". Секреты DataScoring от украинских разработчиков

"Наша цель - миллиардное IPO". Секреты DataScoring от украинских разработчиков

Украинская компания DataScoring получила оценку в $2,5 млн. в рамках посевного раунда. Что же будет дальше?

Рынок Fintech сегодня – один из наиболее динамично развивающихся секторов, требующий все больших инноваций и новых перспективных разработок. Один и таких проектов – украинский DataScoring, чья команда создала совершенно уникальный алгоритм скоринга, уже привлекла посевные инвестиции и открыла офис в Гонконге. Об истории создания и развития продукта, об инвестициях и планах рассказывают сооснователи компаний DataProm и DataScoring Антон Вокруг и Александр Ганджа

InVenture: Начнем с истории. Как возник DataScoring?

Антон Вокруг: В прошлом мы с Сашей – аутсорсеры, разрабатывали клиентам сложное ПО. Естественно, любой аутсорсер рано или поздно мечтает перейти к созданию собственного продукта. И года три назад мы таки решились на это и стали выбирать подходящую нам нишу. Тогда как раз в тренде была big-data. Мы начали изучать тему, алгоритмы, уже существующие проекты. На все это у нас ушло около года. Тогда мы поняли, что раскрутить свой проект мы сможем в секторе e-commerce или fintech.

Первым мы взялись за рынок e-commerce, потому что он огромен и продолжает расти с каждым годом. Потому первым нашим детищем был DataProm.

Александр Ганджа: Мы решили начать с DataProm еще потому, что он проще и понятнее, и намного легче договориться с интернет-магазином, чем с банком, в плане внедрений и реализации новых систем

А.В.:  Вторым на очереди стоял DataScoring – рынок fintech тоже немаленький, и переход на новые технологии необходим его игрокам, как воздух. У нас очень сильный продукт, который уже получил положительные отзывы от клиентов. Это уже даже не MVP, а готовое решение, которые мы можем продавать хоть сейчас в любые страны и любым организациям.

InV.: Как проходил процесс разработки продукта?

А.Г.:  Основным техническим разработчиком в обоих проектах был я. На самом деле, я не придумывал ничего сверхнового. Уже давно существуют семантические анализаторы и различные алгоритмы скоринга, но сегодня появились матмодели и матметоды, благодаря которым все это стало возможным объединить вместе. Я не могу сказать, что мы получили совершенно уникальный продукт, аналогов которому нет. Они есть – это как отдельные компании, так и подразделения таких гигантов, как Google и Amazon. Скоринг очень давно придумали банки. Применять нейронные сети для скоринга – такие проекты тоже существуют, хотя и действовали они в рамках своих узких задач.

"Наша цель - миллиардное IPO". Секреты DataScoring от украинских разработчиков

Нельзя сказать, что мы однозначно лучше всех на свете. Этот как Tesla – инновация, которая по некоторым характеристикам гораздо лучше существующий сегодня автомобилей, а по другим параметрам проигрывает им. Точно так же и здесь. Прогноз – это такая вещь, где, даже используя одни и те же алгоритмы, можно получить совершенно разный результат, просто потому, что по-другому обучалась, настраивалась или конфигурировалась система.

Создавая модель DataScoring, мы использовали классическую модель машинного обучения – сначала ведется предобработка данных, приведение их к анализируемому виду, затем на этих данных ведется обучение нейронной сети. В этом нет ничего уникального, нужно просто взять и сделать.

Уникальность состоит в ответах на следующие вопросы: как это сделать? Почему именно так? Каким образом собрать все части воедино?

InV.: Что же такое скоринг и почему он так важен для финансового рынка?

А.Г.:  Представим себе человека, который хочет получить некую услугу, но для получения этой услуги ему необходимо выполнить ряд определенных условий. Стоит вопрос: выполнит он их или нет? Скоринг позволяет оценить вероятность того, выполнит человек поставленные условия или нет.

Скоринг – это просто оценка и прогноз будущего результата. В кредитной сфере происходит оценка того, будет ли возвращен кредит или нет, какие могут возникнуть проблемы, задержки или задолженности, насколько этот кредит будет выгоден банку.

Моделям, которые сегодня повсеместно используются в скоринге, уже очень много лет. По сути, это бальная система: есть определенные параметры оценки клиента, и после ответов на определенные вопросы он получат балы. При этом могут использовать информацию из соцсетей, историю платежей и кредитов, социально-демографическое положение клиента – информации много и каждая организация делает акцент на разных показателях. После анализа полученной информации выводится некий общий бал, и кредитный аналитик решает, выдавать кредит или нет.

Создавая нашу модель скоринга, мы постарались максимально снизить зависимость от внешних факторов и увеличить точность прогнозирования. Из произвольного набора параметров в базе данных система выбирает те, что содержат наиболее важную информацию, и на основании их обучается и создает прогноз на будущее.

"Наша цель - миллиардное IPO". Секреты DataScoring от украинских разработчиков

Предварительные тесты и первые заказы DataScoring показали нам достаточно хороший результат. То есть, наша нейронная сеть давала прогноз не хуже, чем ТОП-овые банки Украины. Мы рассматриваем украинские банки, хотя сами больше ориентированы на развивающиеся рынки Азии, потому что у нас в стране было три кризиса. Если мы можем прогнозировать кризис, то на рынках со стабильной или стабильно растущей экономикой наша модель будет работать еще лучше.

Мы брали несколько разных наборов данных для обучения и применяли несколько разных моделей. Сравнив нашу модель с другими методами (доступными нам), мы поняли, что наш алгоритм работает либо так же эффективно, либо еще лучше.

Мы можем давать не только прогноз, но и определенную оценку действий: что делать с конкретным клиентом, когда возникнет задолженность и стоит ли обращать на нее повышенное внимание. Классический скоринг не дает таких данных. При этом все наши алгоритмы и нейронные сети абсолютно универсальны – мы можем использовать их для разных видов скоринга, просто меняя размер нейронной сети и ее конфигурацию, оставляя сам «движок» нетронутым. За счет того, что наша система состоит из отдельных модулей, мы можем подстраивать ее под нужды каждого конкретного банка – работать полностью в облаке, на сервере банка или совмещать оба типа.

Мы специально сделали так, потому что законодательство разных стран существенно отличается. Например, в некоторых странах банки не имеют права предоставлять третьей стороне информацию о кредитной истории клиентов, если мы не получаем сертификацию в этой стране. Таким образом, мы можем разместить сервер со всеми расчетами в самом банке, а нам самим не нужно получать никаких дополнительных лицензий. Мы подключаем систему к протоколу банка (при необходимости банк дописывает этот протокол), и данные заходят в систему уже как бы внутри банка.

Мы постарались максимально автоматизировать процесс, но все зависит от того, насколько кредитная организация готова сотрудничать. Некоторые организации понимают, что такая система им нужна, другие бояться подпускать сторонних разработчиков.

InV.: Как работает DataScoring?

А.Г.: Наша модель DataScoring работает в несколько этапов. Первый этап – это предобработка данных. Каждый банк использует собственный формат данных и, помимо этого, большой объем текстовой информации, которую нужно оцифровать. Мы создали свое ноу-хау – алгоритм, который способен всю эту информацию перевести в цифры.

Получившуюся базу данных мы подаем на обучение в нейронную сеть. Мы разбиваем базу на составные части – 80% для обучения и 20% для контроля качества. Затем, в зависимости от объема информации и кредитов, которые нужно проанализировать, выстраивается соответствующая нейронная сеть, которую мы обучаем, проверяем не переобучаемость / неперобучаемость и запускаем процесс прогнозирования.

После того, как прошел процесс обучения нейронной сети, она выстраивает прогноз. Описывать процесс обучения нейронной сети не имеет смысла – все это уже описано во множестве других источников. Мы только подстраиваем саму сеть под потребности клиента. У модели могут быть разные конфигурации, разные размеры.

"Наша цель - миллиардное IPO". Секреты DataScoring от украинских разработчиков

Антон Вокруг, СЕО и сооснователь DataScoring

Тут надо выдерживать определенный баланс между размером сети и сложностью вычислений. Размер сети сильно зависит от того, какой объем данных есть у банка и какие поля они использую для скоринга. Если данных мало, а сеть большая, то это превращается в бессмысленное нагромождение расчетов. Если собирается пять полей, то нецелесообразно строить большую нейронную сеть, если же собирается  100 полей, то, само собой, размер сети растет.

Задачи скоринга, – как и любые задачи прогнозирования, – не имеют четкого гарантированного решения. Тут можно говорить только о вероятности. Вероятность может приближаться к 100%, но она не равна им. Проблема этой задачи одна и та же – прогноз всегда дает какую-то ошибку, где-то больше, где-то меньше. Мы пытаемся решить проблему тем, что делаем более точный прогноз. Мы строим систему таким образом, чтобы она выдавала меньше ошибок, чем банковская модель прогнозирования, и давала более развернутую информацию. Например, в будущем мы хотим делать рисковую оценку портфеля банка. Мы видим, что в стране сейчас происходит кризис, и проверяем портфель банка в этих условиях, смотрим, выживет ли он.

Наша модель скоринга очень гибкая. Мы либо считаем ее в облаке Microsoft Azure, где мощности хоть и ограниченные, но очень большие, либо мы на видеокартах. За счет этого один компьютер в нашей системе может обрабатывать до 3000 потоков. Это объема достаточно для быстрого обучения. Мы проводили тестирование с базой в 250 Гб. Этот объем уже можно назвать BigData – около 20 млрд. простых вычислений (сложение, умножение) – и заняло у нас это около получаса. Причем самым медленным было сохранение и считывание с винчестера это проблема уже не вычисления, а получения информации. В данный момент мы можем проскорить все население земли, которое теоретически может брать кредиты.

Фактически, эту систему можно использовать для прогнозирования чего угодно. Все зависит от конфигурации, а построить ее мы можем любую. Если в данных есть закономерности, то система их найдет. Боле того, поскольку компьютер может держать в памяти гораздо больший объем данных, чем человек, то нейронная сеть может выявить скрытые закономерности, которые человек просто не видит или не желает видеть.

InV.: На каких рынках можно использовать систему DataScoring?

А.Г.: Наша система лучше всего работает на стабильном рынке. Чем меньше на рынке потрясений, тем она будет лучше работать. Но есть нюансы. Например, если в Украине произойдет еще один кризис, это будет не так страшно для скоринговой модели, чем если такой кризис произойдет в Германии. Потому что мы обучаем систему на внутрибанковских данных. Мы можем использовать внешнее обучение, но у каждого банка свои входные данные, модель придется постоянно перестраивать, и это получается слишком трудозатратно. Соответственно, если в истории страны не было кризиса, то система, обученная на имеющихся данных, не будет о нем знать и не сможет корректно обработать поступающую информацию. Но все это характерно для любой прогнозной модели. Чем все стабильнее, тем меньше ожидание форс-мажоров.

"Наша цель - миллиардное IPO". Секреты DataScoring от украинских разработчиков

Александр Ганджа, СТО и сооснователь DataScoring

Для решения этой проблемы мы даже придумали отдельный блок такого «риск-менеджемента», чтобы вручную смоделировать такие провалы и научить систему корректно реагировать на такие вещи.

InV.: Звучит как панацея от безнадежных кредитов. Но ведь не все так просто, в любой системе есть свои слабые места.

А.Г.: Самое трудное – это найти хорошие данные. Данных очень мало, банки боятся их давать, выделяют по маленьким кусочкам. Банки очень бояться, что мы куда-то перепродадим полученные данные. Вплоть до того, что наши клиенты не хотят разглашать, что они с нами работают.

Мы требуем для работы обезличенные данные – нам не нужны номера телефонов, имена и прочее. Для обучения нейронной сети нам нужны указанные параметры клиента и его ID-номер внутри системы. Но банки получают эти данные путем своих проб и ошибок и бояться, что мы их используем для своей выгоды. Я не говорю, что это характерно для всех людей, с которыми мы работали. Но в каждой организации обязательно найдется такой человек, который побоится чего-то нового.

InV.: И как вы справляетесь с этой проблемой?

А.В.: Стараемся работать с людьми, объяснять им выгоду внедрения новой модели скоринга и приглашения сторонних разработчиков. Такой разработчик может наладить работу модели, протестировать ее, подогнать под KPI банка. Организация может поработать в бесплатной триал-версии полгода и убедиться, что новый алгоритм гораздо выгоднее и лучше работает. А непредвзятые аналитики могут заметить скачок прибыли, который произошел после внедрения новой модели.

Помимо этого, для преодоления сопротивления и инертности системы необходимы успешные кейсы и... кризисы. Почему кризисы? Банки сейчас во многом "динозавры": они с трудом переходят в он-лайн сферу, все еще опасаясь открытых данных и удаленной работы с клиентами. Кризис заставит банки либо эволюционировать в более гибкую систему и принять новые модели, либо они "вымрут", как и динозавры.

InV.: Вернемся к самому DataScoring. Недавно вы подняли инвестиционный раунд. Можете рассказать подробности?

А.В.: Получение инвестиций – это не просто деньги, которые к вам заходят, это определенная оценка стоимости твоей компании. Инвестор выкупает у вас долю за определенную сумму, и отсюда делается вывод о рыночной стоимости вашего бизнеса.

Мы подняли seed-ранд, на основе которого и проходила наша разработка и реализация продукта. Я не могу раскрыть сумму уже привлеченных инвестиций, но могу сообщить, что нас уже оценили в $2,5 млн. Конечно, это, в некоторой степени, виртуальная стоимость, но отсюда уже можно делать какие-то выводы.

InV.: Каковы ваши дальнейшие планы?

А.В.: Планы у нас действительно наполеоновские. В первую очередь – захват Азии. В конце мая наш «sales-десант» в размере пяти человек летит в Дубаи, презентовать оба наших продукта – DataProm и DataScoring. Уже договорены встречи как с клиентами, так и потенциальными инвесторами, готовыми зайти в наш проект и вообще на fintech-рынок. Я сам лечу в Израиль, договариваться с потенциальными инвесторами и клиентами.

Конечно, самая главная для нас цель – Гонконг, через который мы хотим войти на китайский рынок. Гонконг – это удобная точка, с которой можно начинать работать с азиатским рынком. Это один из региональных экономических центров. У нас вектор направлен именно на Азию, потому что рынок хорошо и быстро растет. В США и Европе рынок уже устоявшийся, а азиатским странам очень нужны новые модели скоринга, они готовы их использовать. Они готовы минимум опробовать новую модель, и у них меньше своих готовых решений, за счет чего им наш продукт нужен больше.

Также нас очень интересует Южная Африка, в частности Нигерия, ЮАР и Кения. В Кении у нас уже есть готовый контакт, и совсем скоро мы полетим туда общаться и договариваться. В этой стране только что закончилась война, и вся финансовая структура рухнула. Сейчас банкиры в Кении заинтересованы внедрять любые финтех-разработки, причем как можно скорее.

Третий пункт наших интересов – Бразилия.

Только эти три рынка могут дать на миллиардное IPO в будущем.

 

Интервью провела и подготовила Мила Лернер / InVenture Investment Group

Читайте также