Я планирую использовать TensorForestEstimator
для большего набора данных, который будет передаваться через input_fn
, работающий с объектами Pandas.
Чтобы проверить свое понимание API, я собрал небольшой пример, в котором используется набор данных из Репозиторий машинного обучения UC Irvine. Набор данных имеет семь функций (шесть int32
и float32
) и метку (int32
).
Я могу нормально запускать fit()
и evaluate()
, когда набор данных передается в виде массивов numpy
напрямую с аргументами x
и y
.
Когда я пытаюсь выполнить ту же операцию с данными, полученными из input_fn
, который использует from tf.estimator.inputs.pandas_input_fn
и предоставляет столбцы функций tf.contrib.layers
для аргумента feature_columns
, я наблюдаю ошибку значения в tensorflow/contrib/tensor_forest/python/ops/data_ops.py
:
TypeError: '<' not supported between instances of '_RealValuedColumn' and 'str'
Это связано с тем, что sorted()
вызывается для списка ключей словаря, которые одновременно являются объектами str
и TensorFlow.
Код, экспортированный из блокнота Jupyter, приведен в конце этого поста.
Любое понимание того, почему это может происходить, будет оценено. Я довольно много просмотрел документы, StackOverflow и записи о проблемах на GitHub, но до сих пор не нашел основную причину.
Заранее спасибо!
Пример кода для TensorForestEstimator
с pandas_input_fn
Импорт стандартной библиотеки Python
import csv
import numpy as np
import pandas as pd
import random
Импорт библиотеки TensorFlow
import tensorflow as tf
import tensorflow.contrib.layers as layers
import tensorflow.contrib.tensor_forest as tforest
Импорт библиотеки TensorFlow с псевдонимом
from tensorflow.estimator.inputs import pandas_input_fn
from tensorflow.python.platform import tf_logging as logging
Метаданные для столбцов CSV
COLUMN_PROPS = {
'sex' : {
'is_feature' : True,
'is_label' : False,
'dtype' : tf.int32,
'default' : -1,
'feature_column' : layers.real_valued_column(
'sex',
dtype=tf.int32
)
},
'age' : {
'is_feature' : True,
'is_label' : False,
'dtype' : tf.int32,
'default' : -1,
'feature_column' : layers.real_valued_column(
'age',
dtype=tf.int32
)
},
'Time' : {
'is_feature' : True,
'is_label' : False,
'dtype' : tf.float32,
'default' : -1.0,
'feature_column' : layers.real_valued_column(
'Time',
dtype=tf.float32
)
},
'Number_of_Warts' : {
'is_feature' : True,
'is_label' : False,
'dtype' : tf.int32,
'default' : -1,
'feature_column' : layers.real_valued_column(
'Number_of_Warts',
dtype=tf.int32
),
},
'Type' : {
'is_feature' : True,
'is_label' : False,
'dtype' : tf.int32,
'default' : -1,
'feature_column' : layers.real_valued_column(
'Type',
dtype=tf.int32
)
},
'Area' : {
'is_feature' : True,
'is_label' : False,
'dtype' : tf.int32,
'default' : -1,
'feature_column' : layers.real_valued_column(
'Area',
dtype=tf.int32
)
},
'induration_diameter' : {
'is_feature' : True,
'is_label' : False,
'dtype': tf.int32,
'default': -1,
'feature_column' : layers.real_valued_column(
'induration_diameter',
dtype=tf.int32
)
},
'Result_of_Treatment': {
'is_feature' : False,
'is_label' : True,
'dtype': tf.int32,
'default': -1,
'feature_column' : None
}
}
Порядок столбцов CSV
CSV_COLUMNS = [
'sex',
'age',
'Time',
'Number_of_Warts',
'Type',
'Area',
'induration_diameter',
'Result_of_Treatment'
]
Создание списков функций и меток из метаданных
FEATURE_COLUMNS = []
LABEL_COLUMN = None
for k in CSV_COLUMNS:
if COLUMN_PROPS[k]['is_feature']:
FEATURE_COLUMNS.append(k)
elif COLUMN_PROPS[k]['is_label']:
LABEL_COLUMN = k
Вспомогательная функция для перемешивания и экспорта подмножеств
Эта функция используется для экспорта наборов обучающих, оценочных и тестовых данных в формате CSV с перемешиванием строк.
def generate_sets(datasets):
for k, v in datasets.items():
random.shuffle(v)
with open(k + '.csv', 'w') as fobj:
wrtr = csv.writer(fobj)
wrtr.writerow(header)
for rec in v:
wrtr.writerow(rec)
Разделенные наборы данных для обучения, оценки и тестирования
trn = []
evl = []
tst = []
with open('Immunotherapy - ImmunoDataset.csv', 'r') as fobj:
rdr = csv.reader(fobj)
header = next(rdr)
label_key = header[-1]
feature_keys = header[:-1]
for rec in rdr:
# Output of random number generator determines
# which set the record will be placed.
rn = random.random()
if rn < 0.6:
trn.append(rec)
elif rn < 0.8:
evl.append(rec)
else:
tst.append(rec)
datasets = {
'train' : trn,
'eval' : evl,
'test' : tst
}
generate_sets(datasets)
Настройте TensorForest
гиперпараметры
fhp = tforest.tensor_forest.ForestHParams(
num_classes=2,
num_features=7,
regression=False
)
Извлечение столбцов функций из словаря метаданных
fcs = [COLUMN_PROPS[k]['feature_column'] for k in FEATURE_COLUMNS]
Создать TensorForestEstimator
Объект
tfe = tforest.random_forest.TensorForestEstimator(
fhp,
feature_columns=fcs,
report_feature_importances=True
)
Определите оболочку для pandas_input_fn
def get_input_fn(csv_file):
df = pd.read_csv(csv_file)
features = df.loc[:,'sex':'induration_diameter']
# Workaround for this issue:
#
# https://stackoverflow.com/questions/48577372/tensorflowusing-pandas-input-fn-with-tensorforestestimator
# https://github.com/tensorflow/tensorflow/issues/16692
labels = pd.DataFrame(
np.expand_dims(
df.loc[:,'Result_of_Treatment'].values, axis=1
)
)
return pandas_input_fn(x=features, y=labels, shuffle=False)
Обучение на данных
tfe.fit(
input_fn=get_input_fn('train.csv')
)