0
0 комментариев

Проблема в следующем. Есть БД с, примерно, 50млрд unsigned bigint строками. Для дальнейшей работы с ними их нужно кластеризовать по условию заданного расстояния Хэмминга (т.е. заранее количество кластеров неизвестно). И, естественно, никакой оперативки не хватит, что обработать этот объем за раз. Соответственно, алгоритм должен быть инкрементальным, с поступательным добавлением новых данных.
Собственно, вопрос: есть ли такой алгоритм в природе? Желательно, реализованный на каком-нибудь распространенном языке (потому что чисто математику я не пойму). На вскикду, загуглить не удалось :/

Задача не гипотетическая, проект коммерческий :)
Заранее благодарю.


Добавить комментарий