0
0 комментариев

Здравствуйте. Ранее задавал вопрос по подготовке данных для машинного обучения. Но теперь задача усложнилась. Данные в файле такого вида:

100;word;14;alice;59;?
200;any;35;?;?;?
6300;yes;?;myself;?;?

Если с извлечением категорий все понятно, то данные для обучения получаются в виде двумерного массива. Была мысль создать список строк, и помещать в него строки, полученные объединением каждой строки массива по столбцам (за исключением нулевого).
Т. е. взять строку из датафрейма. Объединить все ячейки в ней (кроме нулевой) c помощью join(). Поместить результат в строку. За тем следующую строку и т. п. А потом массив строк пропустить через HashingVectorizer.
Но хотелось бы узнать, нет ли уже реализованной штуки такого рода (в pandas.dataframe я что-то не нашел).
В первом столбце — категория. Во всех последующих — набор данных. Я думаю, что правильнее будет считать набор случайным (т. к. данные мне предоставлены именно в подобном виде).
Данные не гомогенны. В столбцах могут встречаться знаки вопроса (как заменка NaN), так и сами данные.


Добавить комментарий