Если у вас есть пользовательский контент, ваши пользователи будут (иногда, в основном?) говорить непристойные слова на вашем веб-сайте, в социальных сетях, обзорах, комментариях и т. д. Это одно из благословений/проклятий анонимности в Интернете, вы можете болтать как пьяный матрос.
К счастью, мы в londonanalytics.co.uk в некоторой степени являемся экспертами в ругательстве, поэтому, когда нам нужно было создать решение для обнаружения ненормативной лексики в пользовательском (британском) тексте, мы уже были экспертами в данной области.
Поэтому мы создали простой в использовании API, который не требует от вас быть экспертом в области машинного обучения, чтобы использовать новейшие методы в мире науки о данных для обнаружения ненормативной лексики.
Пример с Python
(Боже мой, это было так весело тестировать!)
Это печатает следующее:
{'prediction': True, 'bad_words': ['fucking', 'prick']}
Под капотом используется несколько методов, есть отдельная модель машинного обучения для прогнозирования и отдельные процессы для попытки выяснить список плохих слов. Поэтому не обязательно, чтобы каждое положительное предсказание сопровождалось списком плохих слов. Давайте посмотрим на пример этого сценария:
Это печатает следующее:
{'prediction': True, 'bad_words': []}
Наша модель машинного обучения обнаружила в этом предложении много гнева и ненависти, поэтому решила, что, вероятно, где-то там есть ненормативная лексика, хотя мы не смогли найти конкретное слово.
Мы, конечно, очень вежливые люди, так что давайте проверим предложение, которое мы на самом деле написали бы:
Это печатает следующее:
{'prediction': False, 'bad_words': []}
Не стесняйтесь обращаться к нам и играть с API. Здесь столько всего интересного!