2,8 миллиарда слов расшифрованной речи для социальных наук и обработки естественного языка

Ученые опубликовали крупномасштабный корпус расшифровок разговорного радио

Это краткое изложение исследования – лишь одно из многих, которые еженедельно публикуются в информационном бюллетене для ученых, занимающихся искусственным интеллектом. Чтобы начать получать еженедельную рассылку, зарегистрируйтесь здесь.

Данные становятся все более полезными для машин и областей глубокого обучения. Большая часть данных, используемых для обучения моделей ИИ, извлекается из социальных сетей, онлайн-новостей и печатных СМИ. Радиоданные почти забыты и, вероятно, будут средством связи, особенно в местах, где мало используются Интернет и социальные сети.

В частности, многие пожилые люди не пользуются социальными сетями и другими платформами социальных сетей, но активно слушают радио, что делает такой контент вдвойне полезным. Такие данные являются важной формой медиа для этих демографических групп, поскольку данные о звонках могут предоставить различные примеры естественной разговорной речи.

Корпус расшифрованной речи большого и разнообразного набора дикторов, транслируемых на ток-радиостанциях

Группа исследователей выпустила огромное количество стенограмм распознавания речи, взятых из разговорных радиопередач в США в период с октября 2018 года по март 2019 года. Данные включают почти 2,8 миллиарда слов расшифрованной речи из более чем 280 000 часов радио, вместе взятых. с метаданными о речи.

Система транскрипции проверяет наличие новых аудиофайлов и расшифровывает их, записывая расшифровки обратно в данные. Метаданные включают в себя такие вещи, как пол, географическое положение, границы поворота говорящего, а также информацию о радиопрограмме. Данные представлены в формате JSONL, по одному документу json на строку. Каждая строка представляет собой фрагмент аудио, который может содержать несколько предложений, представленных объектом словаря с некоторыми ключами.

По сути, исследование обобщает, почему и как ученые подготовили данные, описательную статистику по радиостанциям, спикерам и ряд анализов высокого уровня.

Возможное использование и эффекты

Несмотря на наличие ошибок диктовки, выпущенный корпус очень перспективен для применения исследователями в широком круге вопросов обработки естественного языка и социальных наук, разговорного анализа и т.д.

В будущем могут быть выпущены новые версии RadioTalk с дополнительными транскрибированными звуками и улучшенными транскрипциями текущего корпуса.

Более подробная информация доступна здесь.

Подробнее: https://arxiv.org/abs/1907.07073

Спасибо за чтение. Пожалуйста, комментируйте, делитесь и не забывайте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследовательские работы! Вы также можете следить за мной в Twitter и LinkedIn. Не забудьте поставить 👏, если вам понравилась эта статья. Ваше здоровье!

2,8 миллиарда слов расшифрованной речи для социальных наук и обработки естественного языка