Сравните синтетические данные временного ряда, сгенерированные с их источником.

Привет, я понимаю, что это был долгий путь через различные способы создания синтетических данных от классических методов машинного обучения до подхода к глубокому обучению, а также мы увидели, как оценивать наши недавно созданные синтетические данные. Прежде чем перейти к нашей последней теме «Оценка синтетических данных временных рядов», я осветлю некоторые ключевые области, в которых мы можем использовать синтезатор данных.

Прежде всего, как упоминалось ранее, его можно использовать на производственном уровне, где у нас нет доступа к экспорту. Во-вторых, год назад был огромный спрос на данные в области компьютерного зрения, например, в автономных автомобилях для обучения модели обнаружения объектов. Точно так же в других областях медицинской биологии для создания симуляций и так далее.

Прочитать статью:

https://blogs.nvidia.com/blog/2021/06/08/what-is-synthetic-data/

Теперь, когда мы получили представление, синтезатор данных можно использовать любым способом. Давайте завершим наше пошаговое руководство методом синтетической оценки данных временных рядов.

#load the dataset, in our case we can use the built-in demo datasetfrom sdv.metrics.demos import load_timeseries_demo
real_data, synthetic_data, metadata = load_timeseries_demo()

метаданные — это словарное представление метаданных student_placements, которое будет выглядеть примерно так

{'fields': {'start_date': {'type': 'datetime', 'format': '%Y-%m-%d'},
  'end_date': {'type': 'datetime', 'format': '%Y-%m-%d'},
  'salary': {'type': 'numerical', 'subtype': 'integer'},
  'duration': {'type': 'categorical'},
  'student_id': {'type': 'id', 'subtype': 'integer'},
  'high_perc': {'type': 'numerical', 'subtype': 'float'},
  'high_spec': {'type': 'categorical'},
  'mba_spec': {'type': 'categorical'},
  'second_perc': {'type': 'numerical', 'subtype': 'float'},
  'gender': {'type': 'categorical'},
  'degree_perc': {'type': 'numerical', 'subtype': 'float'},
  'placed': {'type': 'boolean'},
  'experience_years': {'type': 'numerical', 'subtype': 'float'},
  'employability_perc': {'type': 'numerical', 'subtype': 'float'},
  'mba_perc': {'type': 'numerical', 'subtype': 'float'},
  'work_experience': {'type': 'boolean'},
  'degree_type': {'type': 'categorical'}},
 'constraints': [],
 'model_kwargs': {},
 'name': None,
 'primary_key': 'student_id',
 'sequence_index': None,
 'entity_columns': [],
 'context_columns': []}

Далее оценка временных рядов делится на несколько различных способов оценки.

  1. Метрики обнаружения. Эти метрики пытаются обучить классификатор машинного обучения, который учится отличать реальные данные от синтетических и сообщает о том, насколько успешно работает этот классификатор.

Результат будет равен 1 минус средний показатель ROC AUC по всем разделениям перекрестной проверки.

from sdv.metrics.timeseries import LSTMDetection, TSFCDetection
LSTMDetection.compute(real_data, synthetic_data, metadata)
TSFCDetection.compute(real_data, synthetic_data, metadata)

2. Метрики эффективности машинного обучения:эти метрики будут оценивать, можно ли заменить реальные данные синтетическими данными, чтобы решить проблему машинного обучения, изучив модель машинного обучения на синтетических данных, а затем оценив оценку, которую она получается при оценке на реальных данных.

from sdv.metrics.timeseries import TSFClassifierEfficacy
TSFClassifierEfficacy.compute(real_data, synthetic_data, metadata, target='region')

вот и все

Я надеюсь, вам понравилась статья, и снова я изо всех сил старался воспроизвести и упростить ее, используя свою интуицию, чтобы найти более инновационные решения со всех сторон.

Вот ссылка на репозиторий, если вы хотите узнать больше о пакете: https://sdv.dev/SDV/user_guides/evaluation/timeseries_metrics.html

Если вы найдете эту статью полезной…. просмотрите другие мои методы, такие как классификатор мешков, классификатор голосования, стекирование и другие, я гарантирую, что они вам тоже понравятся. До скорых встреч с еще одной интересной темой.

Некоторые из моих альтернативных интернет-присутствий Facebook, Instagram, Udemy, Blogger, Issuu и другие.

Также доступно на Quora @ https://www.quora.com/profile/Rupak-Bob-Roy

Хорошего дня.