Я пытаюсь запустить PCA, но у меня слишком много данных (20 тыс. наблюдений), разрешение слишком низкое. Я использую sample_n(df, replace = TRUE, n) [из dplyr] для уменьшения размера и лучшей подгонки.
Мой вопрос: как лучше всего определить (или оценить) размер выборки (n)? Если у меня есть 20 000 наблюдений (разные места, разное время года, относительно однородные), какое отсечение использовать: 5%, 10%, 20%?
Не могли бы вы дать мне ссылку на ваше предложение?
Заранее спасибо за ваши комментарии.