Ошибка в Таблице при создании вычисляемого поля с переменными из двух наборов данных

У меня есть два набора данных: один с тысячами строк с информацией о клиентах (по одной строке на клиента) и более 100 переменных; и еще один, который является результатом процесса машинного обучения, который имеет некоторые важные значения из 10 самых важных переменных клиента (по одной строке на переменную).

Я хочу создать диаграмму, которая отображает переменную в первом наборе данных, имеющую наивысшее значение во втором наборе данных. Переменные во втором наборе данных:

[Набор данных]: переменная, которая одинакова для всего набора данных и используется для исправления вычисления (строки).

[Переменные]: список с названиями наиболее важных переменных (строка).

[Корреляция с целью]: корреляция между переменной в этой строке и целевой переменной (с плавающей точкой).

Это расчеты, которые я сделал. Первое вычисляемое поле создается во втором наборе данных, а два других вычисляемых поля создаются в первом наборе данных.

Наивысшая корреляция:

IF ABS([Correlation With Target])=={ FIXED  [Dataset]:MAX(ABS([Correlation With Target]))} THEN [Variables] ELSE null END

Номер переменной:

CASE ATTR([Sheet1 (Variable Dataset)].[Highest Correlation])

WHEN "Borrower Age" THEN 1

WHEN "Credit score - Borrower" THEN 2

WHEN "Monthly Disposable Income" THEN 3

WHEN "Loan Term" THEN 4

WHEN "LTV" THEN 5

WHEN "Monthly Interest Rate" THEN 6

WHEN "Outstanding Principal Balance" THEN 7

WHEN "Years at Address" THEN 8

WHEN "Years in Employment" THEN 9

END

График корреляции:

IF {[Highest Correlation]=1} THEN [Borrower Age]

ELSEIF {[Highest Correlation]=2} THEN [Credit Score]

ELSEIF {[Highest Correlation]=3} THEN [Income]

ELSEIF {[Highest Correlation]=4} THEN [Loan Term]

ELSEIF {[Highest Correlation]=5} THEN [LTV]

ELSEIF {[Highest Correlation]=6} THEN [Interest Rate]

ELSEIF {[Highest Correlation]=7} THEN [Outstanding Principal Balance]

ELSEIF {[Highest Correlation]=8} THEN [Years at Address]

ELSEIF {[Highest Correlation]=9} THEN [Years in Employment]

END

Проблема в том, что в третьем вычислении при вызове поля [Наивысшая корреляция] выдается следующая ошибка:

«Все поля в выражении с уровнем детализации должны происходить из одного источника данных»

Что изменит эта проблема?

PS: Я не могу поделиться книгами или данными, но я отвечу на любой связанный с этим вопрос, чтобы помочь вам помочь мне.


person Pedro Zampella    schedule 09.08.2018    source источник
comment
Привет, Педро, вы рассматривали возможность перекрестного соединения баз данных? В общем, выражения LOD будут сложными, если вы попытаетесь использовать смешивание. С другой стороны, присоединение может быть более легким способом достижения ваших результатов.   -  person smb    schedule 13.08.2018


Ответы (1)


Я думаю, проблема в том, что поле [Доход] поступает из другого источника данных.

Если возможно, вы размещаете источники данных и поля?

person JWBG    schedule 16.08.2018
comment
Нет, не могу. И да, проблема в том, что он исходит из другого источника данных. - person Pedro Zampella; 22.10.2018