Сравните синтетические данные временного ряда, сгенерированные с их источником.
Привет, я понимаю, что это был долгий путь через различные способы создания синтетических данных от классических методов машинного обучения до подхода к глубокому обучению, а также мы увидели, как оценивать наши недавно созданные синтетические данные. Прежде чем перейти к нашей последней теме «Оценка синтетических данных временных рядов», я осветлю некоторые ключевые области, в которых мы можем использовать синтезатор данных.
Прежде всего, как упоминалось ранее, его можно использовать на производственном уровне, где у нас нет доступа к экспорту. Во-вторых, год назад был огромный спрос на данные в области компьютерного зрения, например, в автономных автомобилях для обучения модели обнаружения объектов. Точно так же в других областях медицинской биологии для создания симуляций и так далее.
Прочитать статью:
https://blogs.nvidia.com/blog/2021/06/08/what-is-synthetic-data/
Теперь, когда мы получили представление, синтезатор данных можно использовать любым способом. Давайте завершим наше пошаговое руководство методом синтетической оценки данных временных рядов.
#load the dataset, in our case we can use the built-in demo datasetfrom sdv.metrics.demos import load_timeseries_demo real_data, synthetic_data, metadata = load_timeseries_demo()
метаданные — это словарное представление метаданных student_placements, которое будет выглядеть примерно так
{'fields': {'start_date': {'type': 'datetime', 'format': '%Y-%m-%d'}, 'end_date': {'type': 'datetime', 'format': '%Y-%m-%d'}, 'salary': {'type': 'numerical', 'subtype': 'integer'}, 'duration': {'type': 'categorical'}, 'student_id': {'type': 'id', 'subtype': 'integer'}, 'high_perc': {'type': 'numerical', 'subtype': 'float'}, 'high_spec': {'type': 'categorical'}, 'mba_spec': {'type': 'categorical'}, 'second_perc': {'type': 'numerical', 'subtype': 'float'}, 'gender': {'type': 'categorical'}, 'degree_perc': {'type': 'numerical', 'subtype': 'float'}, 'placed': {'type': 'boolean'}, 'experience_years': {'type': 'numerical', 'subtype': 'float'}, 'employability_perc': {'type': 'numerical', 'subtype': 'float'}, 'mba_perc': {'type': 'numerical', 'subtype': 'float'}, 'work_experience': {'type': 'boolean'}, 'degree_type': {'type': 'categorical'}}, 'constraints': [], 'model_kwargs': {}, 'name': None, 'primary_key': 'student_id', 'sequence_index': None, 'entity_columns': [], 'context_columns': []}
Далее оценка временных рядов делится на несколько различных способов оценки.
- Метрики обнаружения. Эти метрики пытаются обучить классификатор машинного обучения, который учится отличать реальные данные от синтетических и сообщает о том, насколько успешно работает этот классификатор.
Результат будет равен 1 минус средний показатель ROC AUC по всем разделениям перекрестной проверки.
from sdv.metrics.timeseries import LSTMDetection, TSFCDetection LSTMDetection.compute(real_data, synthetic_data, metadata) TSFCDetection.compute(real_data, synthetic_data, metadata)
2. Метрики эффективности машинного обучения:эти метрики будут оценивать, можно ли заменить реальные данные синтетическими данными, чтобы решить проблему машинного обучения, изучив модель машинного обучения на синтетических данных, а затем оценив оценку, которую она получается при оценке на реальных данных.
from sdv.metrics.timeseries import TSFClassifierEfficacy TSFClassifierEfficacy.compute(real_data, synthetic_data, metadata, target='region')
вот и все
Я надеюсь, вам понравилась статья, и снова я изо всех сил старался воспроизвести и упростить ее, используя свою интуицию, чтобы найти более инновационные решения со всех сторон.
Вот ссылка на репозиторий, если вы хотите узнать больше о пакете: https://sdv.dev/SDV/user_guides/evaluation/timeseries_metrics.html
Если вы найдете эту статью полезной…. просмотрите другие мои методы, такие как классификатор мешков, классификатор голосования, стекирование и другие, я гарантирую, что они вам тоже понравятся. До скорых встреч с еще одной интересной темой.
Некоторые из моих альтернативных интернет-присутствий Facebook, Instagram, Udemy, Blogger, Issuu и другие.
Также доступно на Quora @ https://www.quora.com/profile/Rupak-Bob-Roy