Raifhack
DS

24-26 сентября
Онлайн-хакатон Райффайзенбанка
в области Data Science
Призовой фонд:
700 000 ₽
до конца регистрации
00 : 00 : 00 : 00

Онлайн-хакатон
для аналитиков данных — это:

Все самое
важное о big data
в банкинге
Флудильня
о наболевшем
Стильный мерч Райфа (о нем
ходят легенды)
Участие соло
или в команде
до 5 человек
Промокоды
на вкусную еду
для топ-100
Интерпретация
результата
Работа с реальными данными
Актуальная
задача
Все самое
важное о big data
в банкинге
Флудильня
о наболевшем
Стильный мерч Райфа (о нем
ходят легенды)
Участие соло
или в команде
до 5 человек
Промокоды
на вкусную еду
для топ-100
Интерпретация
результата
Работа с реальными данными
Актуальная
задача

300 000

Призовой фонд

200 000

1 место

2 место

125 000

75 000

3 место

Секретная номинация

Задача

Разработать алгоритм оценки стоимости коммерческой недвижимости

Банки выдают кредиты, в том числе, под залог недвижимости. Для компании это страховка, а для клиента — возможность получить больше под меньший процент. Каждый объект залога оценивают: жилые с помощью ИТ (например, SRG group или «Мобильный оценщик»), а вот коммерческие — чаще вручную. Полноценного автоматизированного инструмента для оценки коммерческой недвижимости пока никто не анонсировал.
Детали задачи
+
Задача
На основании данных о продаже коммерческой недвижимости построить модель, прогнозирующую изменение цен
Данные
Продажи коммерческой недвижимости за 2019 и 2020 год, состоящие из трех частей:
Общая обучающая
100-150 тыс. записей до 09.2020г.
Публичная
2 тыс. записей с 09.2020 по 10.2020
Приватная
2 тыс. записей с 11.2020 по 12.2020
— В единой выборке представлено два типа данных — они отделяются по бинарному признаку price_type.
— В обучающую выборку войдут данные по всем признакам, в тестовую — только с price_type=1.
— Используется кастомная метрика, основанная на отклонении истинного значения от таргета.
— Нельзя использовать любые сервисы и инструменты по оценке недвижимости.
Результат
Прогноз стоимости коммерческой недвижимости на конец 2020 года
— Нельзя получать данные с помощью парсинга или любых других нелегальных инструментов.
Формат решения
Csv-файл с ответами (id, цена) и восроизводимый zip-архив с решениями.
— Можно использовать любые данные, находящиеся в открытом доступе (API или файл), не противоречащие предыдущим пунктам.
— Использование любых платных источников необходимо согласовать с организаторами.
Чего мы хотим
В чем трудность
В чем интерес
Оценка вручную занимает много времени (долгая оценка = задержка решения по выдаче кредита можно потерять клиента).
Отдельные специалисты обычно рассматривают небольшой сегмент рынка (5-10 ближайших аналогов вместо сотен подходящих
объектов) — и могут ошибиться.
Мало данных по коммерческим объектам, а также похожие объекты могут сильно отличаться в цене.
Мало объявлений по коммерческим объектам, что затрудняет
процесс их правильной оценки.
Сложно обосновать корректность результатов (особенно если нет ground truth).
Актуальная задача регрессии на табличках — для тех, кто соскучился по классике.
Работа с реальными данными и нестандартная метрика, приближенная к потребностям бизнеса.
Опыт интерпретации результатов модели (interpretable ml, causal inference) — отдельно отметим лучшие подходы.
Возможность отточить навыки в построении правильного алгоритма валидации, на 100% приближенного к проду.
Оценка вручную занимает много времени (долгая оценка = задержка решения по выдаче кредита можно потерять клиента).
Отдельные специалисты обычно рассматривают небольшой сегмент рынка (5-10 ближайших аналогов вместо сотен подходящих
объектов) — и могут ошибиться.
Мало данных по коммерческим объектам, а также похожие объекты могут сильно отличаться в цене.
Мало объявлений по коммерческим объектам, что затрудняет
процесс их правильной оценки.
Сложно обосновать корректность результатов (особенно если нет ground truth).
Актуальная задача регрессии на табличках — для тех, кто соскучился по классике.
Работа с реальными данными и нестандартная метрика, приближенная к потребностям бизнеса.
Опыт интерпретации результатов модели (interpretable ml, causal inference) — отдельно отметим лучшие подходы.
Возможность отточить навыки в построении правильного алгоритма валидации, на 100% приближенного к проду.
Чего мы хотим
В чем трудность
В чем интерес

Программа хакатона

ПОДАЧА ЗАЯВКИ
Зарегистрируйся и заполни анкету. К участию приглашаем data scientists и аналитиков; соло или в команде до 5 человек
ДО 19 СЕНТЯБРЯ
Мы подведeм итоги и отправим приглашения всем, кто прошeл на хакатон
ДО 20 СЕНТЯБРЯ
ХАКАТОН
Открываем доступ к данным, разбираем бейзлайн
24 СЕНТЯБРЯ
Работаем над моделями и проходим чекпоинты
25 СЕНТЯБРЯ
Закрываем сабмиты решений
26 СЕНТЯБРЯ
ФИНАЛ
Проверяем приватные решения,
приглашаем топ-10 участников на питчи, выбираем победителей
26 СЕНТЯБРЯ
Ждем дата-сайентистов и аналитиков. При рассмотрении заявок обращаем внимание на релевантный опыт, стек, мотивацию.
Задачи Data Scientist

Data Science в Райффайзенбанке

Дата-сайентист в Райфе — это человек, который трансформирует бизнес с помощью ML и помогает банку развивать ключевые направления: сервисы для физлиц и корпоративных клиентов, торговлю на рынках капиталов, управление рисками, казначейство, аудит и комплаенс.
Дата-сайентисты работают в бизнес-доменах вместе с продакт-оунерами, разработчиками и дата-инженерами.
Среди задач — таблички и time series data, NLP, CV, RL, RecSys, Geospatial, чат-бот, оптимизационные задачи и не только.

Data Science в Райффайзенбанке

Задачи Data Scientist

Data Science в Райффайзенбанке

Дата-сайентист в Райфе — это человек, который трансформирует бизнес с помощью ML и помогает банку развивать ключевые направления: сервисы для физлиц и корпоративных клиентов, торговлю на рынках капиталов, управление рисками, казначейство, аудит и комплаенс.
Дата-сайентисты работают в бизнес-доменах вместе с продакт-оунерами, разработчиками и дата-инженерами.
Среди задач — таблички и time series data, NLP, CV, RL, RecSys, Geospatial, чат-бот, оптимизационные задачи и не только.

Data Science в Райффайзенбанке

Используем Hadoop и Spark, Python 3, Scala
Современный технологический стек
Выбираем свободу в принятии решений и воплощении идей
Децентрализованные продуктовые команды
Обмен опытом: регулярные митапы, код-ревью и зарешки
Сильное проф.сообщество
Работаем только с лучшим оборудованием
Мощный вычислительный
кластер
VC.RU: как мы работаем с большими данными
Хабр: о технологиях в оценке комм. недвижимости
Про DS Community Райфа

Остались вопросы?

Что такое Data Science?
Data Science — это наука, которая помогает извлекать пользу из данных. Главные инструменты здесь — математическая статистика и машинное обучение. Дата-сайентисты находят в огромных массивах неструктурированных данных связи и закономерности — и на их основе создают прогнозные модели. То есть алгоритмы поиска оптимальных решений. Где это используется? Да примерно везде: например, в разработках ИИ, в медицине или в алгоритме, который предлагает друзей на FB.
Что такое хакатон?
Хакатон — это соревнование между командами разрабов и других digital-специалистов. Идет несколько дней: получается такой марафон решения задачи. Кроме оригинальных заданий для участников обычно готовят интересные лекции и воркшопы от топовых экспертов, площадки для нетворкинга, что-нибудь фановое, а еще стильный мерч, вкусную еду и кофе.
Как устроен хакатон?
RAIFHACK DS пройдет в онлайне в сентябре 2021 года. 24 сентября мы откроем доступ к данным, 25 сентября встретимся с участниками на воркшопах и будем отвечать на вопросы в чате хакатона, а 26 сентября выберем лучшие решения и наградим топовые команды.
Чтобы поучаствовать, регистрируйтесь до 19 сентября и заполняйте анкету. По анкетам мы выберем, кого пригласить на сам хак.
Могу ли я участвовать один / одна? Где найти команду?
В этот раз можно участвовать одному или собрать команду до 5 человек. Тиммейтов можно поискать в чате хакатона в Telegram или в разделе «Поиск команды» в системе регистрации. А еще организаторы всегда на связи — если что, пишите нам. Мы постараемся помочь!
Как следить за актуальной информацией?
Все самое важное — в чате хакатона. Присоединяйтесь, следите за новостями и задавайте любые вопросы. Найти чат можно тут.
Нужен ли мощный компьютер для тестирования и запуска решения?
Вычислительные мощности для запуска проекта предоставляет Selectel, провайдер облачных инфраструктурных и услуг дата-центров. Все команды и соло-участники получат индивидуальный промокод, который покроет затраты на нужную IT-инфраструктуру. Развернуть гибкий облачный сервер под свое решение можно будет всего в пару кликов абсолютно бесплатно.
+
Launch a targeted campaign.