TensorForestEstimator с feature_column выдает TypeError

Я планирую использовать TensorForestEstimator для большего набора данных, который будет передаваться через input_fn, работающий с объектами Pandas.

Чтобы проверить свое понимание API, я собрал небольшой пример, в котором используется набор данных из Репозиторий машинного обучения UC Irvine. Набор данных имеет семь функций (шесть int32 и float32) и метку (int32).

Я могу нормально запускать fit() и evaluate(), когда набор данных передается в виде массивов numpy напрямую с аргументами x и y.

Когда я пытаюсь выполнить ту же операцию с данными, полученными из input_fn, который использует from tf.estimator.inputs.pandas_input_fn и предоставляет столбцы функций tf.contrib.layers для аргумента feature_columns, я наблюдаю ошибку значения в tensorflow/contrib/tensor_forest/python/ops/data_ops.py:

TypeError: '<' not supported between instances of '_RealValuedColumn' and 'str'

Это связано с тем, что sorted() вызывается для списка ключей словаря, которые одновременно являются объектами str и TensorFlow.

Код, экспортированный из блокнота Jupyter, приведен в конце этого поста.

Любое понимание того, почему это может происходить, будет оценено. Я довольно много просмотрел документы, StackOverflow и записи о проблемах на GitHub, но до сих пор не нашел основную причину.

Заранее спасибо!

Пример кода для TensorForestEstimator с pandas_input_fn

Импорт стандартной библиотеки Python

import csv
import numpy as np
import pandas as pd
import random

Импорт библиотеки TensorFlow

import tensorflow as tf
import tensorflow.contrib.layers as layers
import tensorflow.contrib.tensor_forest as tforest

Импорт библиотеки TensorFlow с псевдонимом

from tensorflow.estimator.inputs import pandas_input_fn
from tensorflow.python.platform import tf_logging as logging

Метаданные для столбцов CSV

COLUMN_PROPS = {
    'sex' : {
        'is_feature' : True,
        'is_label' : False,
        'dtype' : tf.int32,
        'default' : -1,
        'feature_column' : layers.real_valued_column(
            'sex',
            dtype=tf.int32
        )
    },
    'age' : {
        'is_feature' : True,
        'is_label' : False,
        'dtype' : tf.int32,
        'default' : -1,
        'feature_column' : layers.real_valued_column(
            'age',
            dtype=tf.int32
        )  
    },
    'Time' : {
        'is_feature' : True,
        'is_label' : False,
        'dtype' : tf.float32,
        'default' : -1.0,
        'feature_column' : layers.real_valued_column(
            'Time',
            dtype=tf.float32
        )
    },
    'Number_of_Warts' : {
        'is_feature' : True,
        'is_label' : False,
        'dtype' : tf.int32,
        'default' : -1,
        'feature_column' : layers.real_valued_column(
            'Number_of_Warts',
            dtype=tf.int32
        ),
    },
    'Type' : {
        'is_feature' : True,
        'is_label' : False,
        'dtype' : tf.int32,
        'default' : -1,
        'feature_column' : layers.real_valued_column(
            'Type',
            dtype=tf.int32
        )
    },
    'Area' : {
        'is_feature' : True,
        'is_label' : False,
        'dtype' : tf.int32,
        'default' : -1,
        'feature_column' : layers.real_valued_column(
            'Area',
            dtype=tf.int32
        )
    },
    'induration_diameter' : {
        'is_feature' : True,
        'is_label' : False,
        'dtype': tf.int32,
        'default': -1,
        'feature_column' : layers.real_valued_column(
            'induration_diameter',
            dtype=tf.int32
        )
    },
    'Result_of_Treatment': {
        'is_feature' : False,
        'is_label' : True,
        'dtype': tf.int32,
        'default': -1,
        'feature_column' : None
    }
}

Порядок столбцов CSV

CSV_COLUMNS = [
    'sex',
    'age',
    'Time',
    'Number_of_Warts',
    'Type',
    'Area',
    'induration_diameter',
    'Result_of_Treatment'
]

Создание списков функций и меток из метаданных

FEATURE_COLUMNS = []
LABEL_COLUMN = None

for k in CSV_COLUMNS:
    if COLUMN_PROPS[k]['is_feature']:
        FEATURE_COLUMNS.append(k)
    elif COLUMN_PROPS[k]['is_label']:
        LABEL_COLUMN = k

Вспомогательная функция для перемешивания и экспорта подмножеств

Эта функция используется для экспорта наборов обучающих, оценочных и тестовых данных в формате CSV с перемешиванием строк.

def generate_sets(datasets):
    for k, v in datasets.items():
        random.shuffle(v)
        with open(k + '.csv', 'w') as fobj:
            wrtr = csv.writer(fobj)
            wrtr.writerow(header)
            for rec in v:
                wrtr.writerow(rec)

Разделенные наборы данных для обучения, оценки и тестирования

trn = []
evl = []
tst = []

with open('Immunotherapy - ImmunoDataset.csv', 'r') as fobj:
    rdr = csv.reader(fobj)
    header = next(rdr)
    label_key = header[-1]
    feature_keys = header[:-1]

    for rec in rdr:
        # Output of random number generator determines
        # which set the record will be placed.
        rn =  random.random()
        if rn < 0.6:
            trn.append(rec)
        elif rn < 0.8:
            evl.append(rec)
        else:
            tst.append(rec)

datasets = {
    'train' : trn,
    'eval' : evl,
    'test' : tst
}

generate_sets(datasets)

Настройте TensorForest гиперпараметры

fhp = tforest.tensor_forest.ForestHParams(
    num_classes=2,
    num_features=7,
    regression=False
)

Извлечение столбцов функций из словаря метаданных

fcs = [COLUMN_PROPS[k]['feature_column'] for k in FEATURE_COLUMNS]

Создать TensorForestEstimator Объект

tfe = tforest.random_forest.TensorForestEstimator(
    fhp,
    feature_columns=fcs,
    report_feature_importances=True
)

Определите оболочку для pandas_input_fn

def get_input_fn(csv_file):

    df = pd.read_csv(csv_file)

    features = df.loc[:,'sex':'induration_diameter']

    # Workaround for this issue:
    #
    # https://stackoverflow.com/questions/48577372/tensorflowusing-pandas-input-fn-with-tensorforestestimator
    # https://github.com/tensorflow/tensorflow/issues/16692

    labels = pd.DataFrame(
        np.expand_dims(
            df.loc[:,'Result_of_Treatment'].values, axis=1
        )
    )

    return pandas_input_fn(x=features, y=labels, shuffle=False)

Обучение на данных

tfe.fit(
    input_fn=get_input_fn('train.csv')
)

person P.J. Hinton    schedule 25.02.2019    source источник


Ответы (1)


После дальнейшего тестирования я считаю, что это ошибка в TensorForestEstimator. Более подробную информацию можно найти в выпуске GitHub по этому URL-адресу:

https://github.com/tensorflow/tensorflow/issues/26082

person P.J. Hinton    schedule 25.02.2019