Scikit-learn для обучения модели машинного обучения набору данных о химических соединениях и их связанной активности против определенного заболевания.

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# Read in data and split into training and test sets
data = pd.read_csv("compound_data.csv")
X = data.drop("activity", axis=1)
y = data["activity"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Train a random forest classifier
clf = RandomForestClassifier()
clf.fit(X_train, y_train)

# Test the model on the test set
accuracy = clf.score(X_test, y_test)
print("Accuracy:", accuracy)

Кроме того, библиотеки Python, такие как matplotlib, seaborn и plotly, можно использовать для визуализации данных, что помогает исследователям быстро разбираться в сложных наборах данных и принимать более обоснованные решения. Вот пример того, как вы можете использовать matplotlib для создания точечной диаграммы. двух химических свойств против активности:

import matplotlib.pyplot as plt

# Read in data
data = pd.read_csv("compound_data.csv")

# Create scatter plot
plt.scatter(data["property1"], data["property2"], c=data["activity"])
plt.xlabel("Property 1")
plt.ylabel("Property 2")
plt.show()