Если у вас есть пользовательский контент, ваши пользователи будут (иногда, в основном?) говорить непристойные слова на вашем веб-сайте, в социальных сетях, обзорах, комментариях и т. д. Это одно из благословений/проклятий анонимности в Интернете, вы можете болтать как пьяный матрос.

К счастью, мы в londonanalytics.co.uk в некоторой степени являемся экспертами в ругательстве, поэтому, когда нам нужно было создать решение для обнаружения ненормативной лексики в пользовательском (британском) тексте, мы уже были экспертами в данной области.

Поэтому мы создали простой в использовании API, который не требует от вас быть экспертом в области машинного обучения, чтобы использовать новейшие методы в мире науки о данных для обнаружения ненормативной лексики.

Пример с Python

(Боже мой, это было так весело тестировать!)

Это печатает следующее:

{'prediction': True, 'bad_words': ['fucking', 'prick']}

Под капотом используется несколько методов, есть отдельная модель машинного обучения для прогнозирования и отдельные процессы для попытки выяснить список плохих слов. Поэтому не обязательно, чтобы каждое положительное предсказание сопровождалось списком плохих слов. Давайте посмотрим на пример этого сценария:

Это печатает следующее:

{'prediction': True, 'bad_words': []}

Наша модель машинного обучения обнаружила в этом предложении много гнева и ненависти, поэтому решила, что, вероятно, где-то там есть ненормативная лексика, хотя мы не смогли найти конкретное слово.

Мы, конечно, очень вежливые люди, так что давайте проверим предложение, которое мы на самом деле написали бы:

Это печатает следующее:

{'prediction': False, 'bad_words': []}

Не стесняйтесь обращаться к нам и играть с API. Здесь столько всего интересного!