Scikit-learn для обучения модели машинного обучения набору данных о химических соединениях и их связанной активности против определенного заболевания.
import pandas as pd from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier # Read in data and split into training and test sets data = pd.read_csv("compound_data.csv") X = data.drop("activity", axis=1) y = data["activity"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) # Train a random forest classifier clf = RandomForestClassifier() clf.fit(X_train, y_train) # Test the model on the test set accuracy = clf.score(X_test, y_test) print("Accuracy:", accuracy)
Кроме того, библиотеки Python, такие как matplotlib, seaborn и plotly, можно использовать для визуализации данных, что помогает исследователям быстро разбираться в сложных наборах данных и принимать более обоснованные решения. Вот пример того, как вы можете использовать matplotlib для создания точечной диаграммы. двух химических свойств против активности:
import matplotlib.pyplot as plt # Read in data data = pd.read_csv("compound_data.csv") # Create scatter plot plt.scatter(data["property1"], data["property2"], c=data["activity"]) plt.xlabel("Property 1") plt.ylabel("Property 2") plt.show()