рабочие эпизоды
Mar. 6th, 2020 11:47 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Работаю с базой данных российского дилера американской компании. Там названия регионов России на английском, и есть нестандартные. Cream Autonomous Republic. Нет, что для американцев оставили украинское названием со словом "автономная" - это нормально, но чтобы Крым писали как "крем" - такого я ещё не видывал. Или ещё смешнее: Yevreyskaya AO (у кого-то рука не поднялась перевести как Jewish).
А вообще база отличная. То ли дело другая, уже чисто российского предприятия. Под тысячу полей с наборами значений в каждом типа 1, "1", 0.1, "Y", "N", "NONE" (строка) и кодовых обозначений типа "UIUYU676876", причём таких опять же сотни разных, т.е. если кодировать one-hot-ом, таблица поди разрастётся до миллиардов ячеек - а выбрасывать такие столбцы нельзя, корреляция-то с целевой переменной там явно имеется... Big data, big dumb fucking data...
А вообще база отличная. То ли дело другая, уже чисто российского предприятия. Под тысячу полей с наборами значений в каждом типа 1, "1", 0.1, "Y", "N", "NONE" (строка) и кодовых обозначений типа "UIUYU676876", причём таких опять же сотни разных, т.е. если кодировать one-hot-ом, таблица поди разрастётся до миллиардов ячеек - а выбрасывать такие столбцы нельзя, корреляция-то с целевой переменной там явно имеется... Big data, big dumb fucking data...