Ich verwende tidytext
(und die tidyverse
), um einige Textdaten zu analysieren (wie in Tidy Text Mining with R).Einfache Abschnittbeschriftung mit tidtext für Klartexteingabe
Meine Eingabetextdatei, myfile.txt
, sieht wie folgt aus:
# Section 1 Name
Lorem ipsum dolor
sit amet ... (et cetera)
# Section 2 Name
<multiple lines here again>
mit 60 oder so Abschnitte.
Ich möchte eine Spalte section_name
mit den Strings "Category 1 Name"
oder "Category 2 Name"
als Werte für die entsprechenden Zeilen generieren. Zum Beispiel habe ich
library(tidyverse)
library(tidytext)
library(stringr)
fname <- "myfile.txt"
all_text <- readLines(fname)
all_lines <- tibble(text = all_text)
tidiedtext <- all_lines %>%
mutate(linenumber = row_number(),
section_id = cumsum(str_detect(text, regex("^#", ignore_case = TRUE)))) %>%
filter(!str_detect(text, regex("^#"))) %>%
ungroup()
, die für jede Zeile eine Spalte in tidiedtext
für die entsprechende Abschnittsnummer hinzufügt.
Ist es möglich, dem Aufruf an mutate()
eine einzelne Zeile hinzuzufügen, um eine solche Spalte hinzuzufügen? Oder gibt es einen anderen Ansatz, den ich verwenden sollte?
Danke! Das ist ziemlich genau das, wonach ich gesucht habe. – weinerjm