У меня есть набор строк и столбцов данных сообщений и комментариев на Reddit, где строка представляет сообщение и его комментарий. Поскольку одно сообщение может содержать несколько комментариев, у меня есть строки с одинаковым идентификатором (идентификатором сообщения) и разными идентификаторами комментариев. Я хочу объединить строки с одним и тем же идентификатором для одной строки и иметь все разные идентификаторы комментариев в столбце — «идентификатор комментария», разделенные запятыми. Но также, поскольку данные сообщения (заголовок, тело и т. д.) дублируются (как показано на прикрепленном изображении), мне не нужно, чтобы они объединялись, так как только одно вхождение в строке.
![дублировать строки][1] 1
Я мог бы объединить информацию о комментариях для соответствующих столбцов, разделенных запятыми, но я не знаю, как получить одно вхождение дублированной информации о сообщении, которое не требует слияния.
all_reddits <- all_posts_and_comments %>%
group_by(id) %>%
summarise(
comment_id = paste(comment_id, collapse=","),
comment_author = paste(comment_author, collapse = ","),
comment_body = paste(comment_body, collapse = ","),
comment_score = paste(comment_score, collapse = ","),
comment_created_date = paste(comment_created_date, collapse = ","),
comment_link = paste(comment_link, collapse=",")
)
Я пробовал summarise_all() и summarise_at() из R: dplyr, но я продолжаю получать ошибки.