Моя программа анализирует 2 набора данных, охватывающих данные рынка биткойнов, а также данные тенденций поиска Google. Я анализирую 3 переменные: данные Google о тенденциях для биткойнов, количество уникальных адресов биткойнов, используемых с течением времени, и рыночную цену биткойнов с течением времени.

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

# -*- coding: utf-8 -*-
“””
Josh Gordon
Coursera Data Science Class
Запись урока 2

“””

импортировать панды
импортировать numpy

## читать CSV-файлы в переменные
data = pandas.read_csv("google_trends_data.csv", low_memory=False)
dataBitcoin = pandas.read_csv("bitcoin_dataset.csv", low_memory=False)

## вывести строки и столбцы для каждого источника данных
print(len(data)) ## количество наблюдений, строк
print(len(data.columns)) ## количество переменных, столбцов

print("подсчитывает проценты для google_trends_data с течением времени")
c1 = data["interest_over_time"].value_counts(sort=False)
print (c1)

print("проценты интереса google_trends_data с течением времени")
p1 = data["interest_over_time"].value_counts(sort=False, normalize=True)
print (p1)

print("количество уникальных адресов для биткойн_данных, используемых с течением времени")
c2 = dataBitcoin["btc_n_unique_addresses"].value_counts(sort=False)
print (c2)

print("проценты уникальных адресов bitcoin_datase, использованных с течением времени")
p2 = dataBitcoin["btc_n_unique_addresses"].value_counts(sort=False, normalize=True)
print (p2)

print("подсчеты для bitcoin_dataset рыночная цена биткойна с течением времени")
c3 = dataBitcoin["btc_market_price"].value_counts(sort=False)
print (c3)

print("проценты для bitcoin_datase рыночная цена биткойна с течением времени")
p3 = dataBitcoin["btc_market_price"].value_counts(sort=False, normalize=True)
print (p3)

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

2) В выходных данных отображаются три переменные из моих наборов данных в виде частотных таблиц, как в виде количества, так и в форме частоты.

447.370000 1
232.990000 1
0.104500 1
18.998000 1
17.619260 1
639.565643 1
247.560000 1
289 79.260000
120,949990 1
11,550000 1
350,970000 1
514,840000 1
195,780000 1
860,599875 1
4,949900 1
00 2,1900 /> 262.440000 1
6.896000 1
2751.821029 1
367.010000 1
2442.480250 1
833.160000 1
4.300000 1
820.160
820.160
1.050190 3
2211.976857 1
4.990000 1
237.340000 1
11.129000 1
Имя: btc_market_price, Длина: 2462, dtype: int64
проценты для bitcoin_datase bitcoin marketprice Со временем
0,000000 0.107877
0.250000 0.001370
0.500000 0,000342
0,750000 0,000342
1.000000 0,000685
3.500000 0,000342
8.500000 0,000342
9.000000 0,001027
30,000000 0,000342
20,000000 0,000342
15,500000 0,000342
16,000000 0,000342
18,000000 0,000342
17,00 0000 0,000342
15.000000 0,000685
7.874000 0,000342
14.000000 0,000342
11.000000 0,000342
6.25000000000000000042
5.000000 0,002055
5.500000 0,000685
3.000000 0,000685
3.250000 0,000342
4,500000 0,000342
6.750000 0.001027
6.00000000 0,000685
12.000000 0,001370
10.500000 0,000685
13.500000 0,000342
184.000000 0,000342

447.370000 0,000342
232.990000 0,000342
0.104500 0,000342
18.998000 0,000342
17.619260 0,000342
639260 0,000342
639.565643
0,000342
247.560000 0,000342
28.789990 0.000342
120.949990 0.000342
11.550000 0,000342
350.970000 0,000342
514.840000 0,000342
195.780000 0,000342
860.599875 0,000342
4.949900 0,000342
2.990000 0,000342
262.440000 0,000342
6.896000 0,000342
2751.821029 0,000342
367.010000 0,000342
2442.480250 0,000342
833.160000 0,00034 2
4.300000 0,000342
822.560000 0,000342
1.050190 0.001027
2211.976857 0,000342
4.99000000 0,000342
297.340000 0,000342
11.129000 0,000342
Название: btc_market_price , длина: 2462, dtype: float64

3) Мысли о данных:

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — —-

Это было очень интересное задание для меня, потому что я обнаружил, что распределения таблиц частот не очень полезны для понимания моих наборов данных в их текущей форме. Я получил свои собственные данные, и переменные больше ориентированы на финансы, чем те, которые были получены через Coursera. Поскольку мои переменные не имеют формы «да», «нет», «другое» и т. д., а вместо этого являются числовыми и могут содержать много знаков после запятой, просмотр частоты и количества бесполезен, поскольку числа не перекрываются аккуратно. Было бы гораздо полезнее посмотреть на изменение с течением времени в процентах, а затем сравнить эти процентные изменения друг с другом, чтобы увидеть, можно ли определить корреляцию. Этот вид анализа я надеюсь провести в будущем. Я не боролся с наличием недостающих данных. Возможно, было бы проще нормализовать мои данные, чтобы мои числа не содержали десятичных точек, я не думаю, что это изменит мои результаты и может сделать анализ более чистым.

С нетерпением жду следующего урока!

Ваше здоровье,

Джош

Моя первая программа по науке о данных: понимание не происходит автоматически