Задний план
Мне нужно объединить видеофайл и аудиофайл в один видеофайл, чтобы:
- Выходной видеофайл будет иметь ту же продолжительность, что и входной видеофайл.
- Звук в выходном файле будет только из входного аудиофайла. Если он слишком короткий, он будет зацикливаться до конца (может остановиться в конце, если это необходимо). Это означает, что после того, как звук закончил воспроизводиться, а видео - нет, я должен воспроизводить его снова и снова, пока видео не закончится (объединение звука).
Насколько я читал, технический термин этой операции слияния называется «мультиплексирование».
В качестве примера предположим, что у нас есть входное видео продолжительностью 10 секунд и аудиофайл продолжительностью 4 секунды, выходное видео будет длиться 10 секунд (всегда такое же, как входное видео), а звук будет воспроизводиться 2,5 раза (первые 2 раза). охватывают первые 8 секунд, а затем 2 секунды из 4 для остальных).
Проблемы
Хотя я нашел решение, как мультиплексировать видео и аудио (здесь), Я столкнулся с несколькими проблемами:
Я не могу понять, как зациклить запись аудиоконтента, когда это необходимо. У меня постоянно выдает ошибку, что бы я ни пытался
Входные файлы должны иметь определенные форматы файлов. В противном случае может возникнуть исключение или (в очень редких случаях) хуже: создать видеофайл с черным содержимым. Более того: иногда файл «.mkv» (например) может подойти, а иногда он не будет принят (и оба они могут воспроизводиться в приложении видеоплеера).
Текущий код обрабатывает буферы, а не реальную длительность. Это означает, что во многих случаях я могу прекратить мультиплексирование звука, даже если этого делать не следует, и выходной видеофайл будет иметь более короткий аудиоконтент по сравнению с исходным, даже если видео достаточно длинное.
Что я пробовал
Я попытался заставить MediaExtractor звука переходить к его началу каждый раз, когда он достигал конца, используя:
if (audioBufferInfo.size < 0) { Log.d("AppLog", "reached end of audio, looping...") audioExtractor.seekTo(0, MediaExtractor.SEEK_TO_CLOSEST_SYNC) audioBufferInfo.size = audioExtractor.readSampleData(audioBuf, 0) }
Для проверки типов файлов я попытался использовать
MediaMetadataRetriever
, а затем проверить тип mime. Я думаю, что поддерживаемые доступны в документации (здесь ) как те, которые помечены как "Кодировщик". Не уверен в этом. Я также не знаю, какой тип пантомимы относится к тому типу, который там упоминается.Я также пытался переинициализировать все, что связано со звуком, но это тоже не сработало.
Вот мой текущий код для самого мультиплексирования (полный пример проекта доступен здесь):
object VideoAndAudioMuxer {
// based on: https://stackoverflow.com/a/31591485/878126
@WorkerThread
fun joinVideoAndAudio(videoFile: File, audioFile: File, outputFile: File): Boolean {
try {
// val videoMediaMetadataRetriever = MediaMetadataRetriever()
// videoMediaMetadataRetriever.setDataSource(videoFile.absolutePath)
// val videoDurationInMs =
// videoMediaMetadataRetriever.extractMetadata(MediaMetadataRetriever.METADATA_KEY_DURATION).toLong()
// val videoMimeType =
// videoMediaMetadataRetriever.extractMetadata(MediaMetadataRetriever.METADATA_KEY_MIMETYPE)
// val audioMediaMetadataRetriever = MediaMetadataRetriever()
// audioMediaMetadataRetriever.setDataSource(audioFile.absolutePath)
// val audioDurationInMs =
// audioMediaMetadataRetriever.extractMetadata(MediaMetadataRetriever.METADATA_KEY_DURATION).toLong()
// val audioMimeType =
// audioMediaMetadataRetriever.extractMetadata(MediaMetadataRetriever.METADATA_KEY_MIMETYPE)
// Log.d(
// "AppLog",
// "videoDuration:$videoDurationInMs audioDuration:$audioDurationInMs videoMimeType:$videoMimeType audioMimeType:$audioMimeType"
// )
// videoMediaMetadataRetriever.release()
// audioMediaMetadataRetriever.release()
outputFile.delete()
outputFile.createNewFile()
val muxer = MediaMuxer(outputFile.absolutePath, MediaMuxer.OutputFormat.MUXER_OUTPUT_MPEG_4)
val sampleSize = 256 * 1024
//video
val videoExtractor = MediaExtractor()
videoExtractor.setDataSource(videoFile.absolutePath)
videoExtractor.selectTrack(0)
videoExtractor.seekTo(0, MediaExtractor.SEEK_TO_CLOSEST_SYNC)
val videoFormat = videoExtractor.getTrackFormat(0)
val videoTrack = muxer.addTrack(videoFormat)
val videoBuf = ByteBuffer.allocate(sampleSize)
val videoBufferInfo = MediaCodec.BufferInfo()
// Log.d("AppLog", "Video Format $videoFormat")
//audio
val audioExtractor = MediaExtractor()
audioExtractor.setDataSource(audioFile.absolutePath)
audioExtractor.selectTrack(0)
audioExtractor.seekTo(0, MediaExtractor.SEEK_TO_CLOSEST_SYNC)
val audioFormat = audioExtractor.getTrackFormat(0)
val audioTrack = muxer.addTrack(audioFormat)
val audioBuf = ByteBuffer.allocate(sampleSize)
val audioBufferInfo = MediaCodec.BufferInfo()
// Log.d("AppLog", "Audio Format $audioFormat")
//
muxer.start()
// Log.d("AppLog", "muxing video&audio...")
// val minimalDurationInMs = Math.min(videoDurationInMs, audioDurationInMs)
while (true) {
videoBufferInfo.size = videoExtractor.readSampleData(videoBuf, 0)
audioBufferInfo.size = audioExtractor.readSampleData(audioBuf, 0)
if (audioBufferInfo.size < 0) {
// Log.d("AppLog", "reached end of audio, looping...")
//TODO somehow start from beginning of the audio again, for looping till the video ends
// audioExtractor.seekTo(0, MediaExtractor.SEEK_TO_CLOSEST_SYNC)
// audioBufferInfo.size = audioExtractor.readSampleData(audioBuf, 0)
}
if (videoBufferInfo.size < 0 || audioBufferInfo.size < 0) {
// Log.d("AppLog", "reached end of video")
videoBufferInfo.size = 0
audioBufferInfo.size = 0
break
} else {
// val donePercentage = videoExtractor.sampleTime / minimalDurationInMs / 10L
// Log.d("AppLog", "$donePercentage")
// video muxing
videoBufferInfo.presentationTimeUs = videoExtractor.sampleTime
videoBufferInfo.flags = videoExtractor.sampleFlags
muxer.writeSampleData(videoTrack, videoBuf, videoBufferInfo)
videoExtractor.advance()
// audio muxing
audioBufferInfo.presentationTimeUs = audioExtractor.sampleTime
audioBufferInfo.flags = audioExtractor.sampleFlags
muxer.writeSampleData(audioTrack, audioBuf, audioBufferInfo)
audioExtractor.advance()
}
}
muxer.stop()
muxer.release()
// Log.d("AppLog", "success")
return true
} catch (e: Exception) {
e.printStackTrace()
// Log.d("AppLog", "Error " + e.message)
}
return false
}
}
- Я также пытался использовать библиотеку FFMPEG (здесь и здесь), чтобы узнать, как это сделать. Это работало нормально, но у него есть некоторые возможные проблемы: библиотека, кажется, занимает много места, раздражает условия лицензирования, и по какой-то причине образец не может воспроизвести выходной файл, который я должен создать, если я не удалю что-то в команда, которая сделает преобразование намного медленнее. Я действительно предпочел бы использовать встроенный API, чем использовать эту библиотеку, хотя это очень мощная библиотека... Кроме того, кажется, что для некоторых входных файлов она не зацикливалась...
Вопросы
Как я могу мультиплексировать видео и аудио файлы, чтобы звук зацикливался, если звук короче (по продолжительности) по сравнению с видео?
Как я могу сделать так, чтобы звук обрезался именно тогда, когда видео заканчивается (без остатка ни на видео, ни на аудио)?
Как я могу проверить перед вызовом этой функции, может ли текущее устройство обрабатывать данные входные файлы и фактически мультиплексировать их? Есть ли способ проверить во время выполнения, какие из них поддерживаются для такого рода операций, вместо того, чтобы полагаться на список документов, которые могут измениться в будущем?