как переобучить модель последовательности файлов в vowpal wabbit

Я пытаюсь запустить vowpal wabbit для набора файлов (примерно 10 на данный момент). Мой эксперимент заключается в следующем:

  1. Конвертируйте первый файл поезда в формат VW

  2. Обучите модель VW с помощью этого первого обучающего файла и сохраните модель.

  3. Проверьте точность тестового файла с сохраненной моделью

  4. Теперь возьмите второй файл, преобразуйте его в формат VW и переобучите модель, сохраненную на шаге 2, с помощью этого второго файла и сохраните обновленную модель.

  5. Подтвердите тестовый файл на повторно обученной модели и сообщите о точности.

  6. Повторите шаги 4-5 для оставшегося набора файлов, используя цикл for (тестовый файл одинаков на каждой итерации)

Когда я проводил этот эксперимент, я получил некоторую ошибку. Здесь я вставляю команды обучения, переобучения и проверки, а также ошибку.

Может ли кто-нибудь из вас помочь мне воспроизвести этот сценарий без каких-либо ошибок.

Команды:

здесь «i» находится в диапазоне от 1 до 10

$idec = i -1 (индекс предыдущей модели)

vw -d ${i}_processed_binary_compressed.vw --loss_function logistic -i ${idec}_processed_binary_compressed.model.vw --quiet --save_resume -f ${i}_processed_binary_compressed.model.vw

echo echo "Обучение модели завершено для day_$i"

echo "Выполняется проверка модели ${i}_day..." echo

vw 10_processed_binary_compressed_test.vw -t -i ${i}_processed_binary_compressed.model.vw --quiet --hash strings -p 10_processed_binary_compressed_test_${i}_day_result.csv -r 10_processed_binary_compressed_test_${i}_day_raw.txt

ошибка:

vw: опция --data не может быть указана более одного раза


person TOC_cmi    schedule 28.11.2014    source источник
comment
Почему вы используете строки --hash только при тестировании? Это странно.   -  person Martin Popel    schedule 30.11.2014
comment
Описанный сценарий работает для меня с новейшей git-версией VW. Какую версию вы используете? Попробуйте обновить.   -  person Martin Popel    schedule 30.11.2014
comment
опция '--data' не может быть указана более одного раза, я думаю, что это может произойти, например. если какое-либо имя файла содержит (неэкранированный) пробел. Имя первого файла 10_processed_binary_compressed_test.vw на самом деле неявно понимается как аргумент --data. (К сожалению, новейшая версия VW имеет худшее сообщение об ошибке: vw: многократное появление.)   -  person Martin Popel    schedule 30.11.2014
comment
Может ли кто-нибудь из вас вставить команду с соответствующими ошибками для вышеупомянутого сценария в мои исходные вопросы?   -  person TOC_cmi    schedule 01.12.2014


Ответы (1)


Я не могу воспроизвести проблему (но TOC_cmi попросил вставить общие объявления, которые я использовал):

git clone https://github.com/JohnLangford/vowpal_wabbit.git
cd vowpal_wabbit
make
cd test/train-sets

vw -d rcv1_smaller.dat --loss_function=logistic --save_resume -f day1.model
vw -d rcv1_small.dat --loss_function=logistic --save_resume -i day1.model -f day2.model
vw -t -d rcv1_smaller.dat --loss_function=logistic -i day2.model -p day2.predictions -r day2.raw
person Martin Popel    schedule 01.12.2014