1. Оценка предварительной подготовки с самоконтролем для автоматической классификации движений младенцев с использованием носимых датчиков движения (arXiv)

Автор: Эйнари Ваарас, Ману Айраксинен, Сампса Ванхатало, Окко Расанен.

Резюме: недавно разработанное носимое устройство MAIJU для младенцев предоставляет средства для автоматической объективной и масштабируемой оценки двигательных возможностей младенцев во внебольничных условиях. Эта информация может быть использована для исследований развития и для поддержки принятия клинических решений, таких как выявление проблем развития и руководство их терапевтическими вмешательствами. Анализы на основе MAIJU полностью основаны на классификации позы и движений младенцев; поэтому важно изучить способы повышения точности таких классификаций с целью повышения надежности и устойчивости автоматизированного анализа. Здесь мы исследовали, как предварительное обучение с самоконтролем улучшает производительность классификаторов, используемых для анализа записей MAIJU, и мы изучили, влияет ли на производительность моделей классификатора контекстно-селективный скрининг качества данных перед обучением, чтобы исключить периоды малых значений. движения младенца или с отсутствующими датчиками. Наши эксперименты показывают, что i) предварительное обучение классификатора с неразмеченными данными приводит к надежному повышению точности последующих моделей классификации, и ii) выбор релевантных для контекста данных предварительного обучения приводит к существенному дальнейшему улучшению производительности классификатора.

2. Распутывание враждебного говорящего с использованием неаннотированных внешних данных для самоконтролируемого преобразования голоса на основе представления (arXiv)

Автор: Синьтао Чжао, Шуай Ван, Ян Чао, Чжиюн Ву, Хелен Мэн.

Аннотация: В настоящее время для преобразования голоса (VC) достаточно популярны методы, основанные на распознавании-синтезе. Благодаря внедрению лингвистических функций с хорошими распутывающими символами, извлеченными из модели автоматического распознавания речи (ASR), производительность VC была значительно улучшена. В последнее время методы обучения с самоконтролем (SSL), обученные с помощью крупномасштабного неаннотированного речевого корпуса, применялись к последующим задачам с упором на информацию о содержании, которая подходит для задач VC. Однако огромное количество информации о дикторе в SSL-представлениях значительно ухудшает тембровое сходство и качество преобразованной речи. Чтобы решить эту проблему, мы предложили метод преобразования голоса «любой-к-одному» с высокой степенью сходства с вводом представлений SSL. Мы включили противоборствующие механизмы обучения в модуль синтеза, используя внешние неаннотированные корпуса. Два вспомогательных дискриминатора были обучены различать, была ли последовательность мел-спектрограмм преобразована акустической моделью и содержит ли последовательность встраивания контента информацию о говорящем из внешних корпусов. Экспериментальные результаты показывают, что предлагаемый нами метод обеспечивает сопоставимое сходство и более высокую естественность, чем метод с учителем, который требует огромного количества аннотированных корпусов для обучения и применим для улучшения сходства для методов VC с другими представлениями SSL в качестве входных данных.