
DL NLP, . — GPT-2! , .. . - 117, 1250, . . , . , l4rz! ( ) — , … ! ;)
, , , GPT-3 ( , , GPT-3 - ). GPT-3, — - ! .
Disclaimer. , . : I scraped a couple of Russian press sites, parsed HTML with beautifulsoup4 and saved parsed texts as well as metadata (headers, TL;DRs, timestamps) for further sorting and postprocessing in PKLs… In order to push things further the 4Gb dataset (415M tokens) was augmented with 3Gb of filtered fanfics, becoming a 7Gb one (862M tokens).
: . . , — ( - *). , GPT-3, … ;)
№1
.>>>, . . , , . . .>>> new
, . . , , . . . . , , . - , .>>> new
, . . , , . . , , , .
№2
.>>>. . , , .>>> new
. . , , .>>> new
. . , , .
№3
.>>>, . , , . . , . , ?>>> new
*
, . , , . . , . , . - — .>>> new
, . , , . . , . , ?
— .
№4
.>>>, . ?>>> new
— , , .
, . ?>>> new
— , , , , .
, . ?
— . ,- .
№5
.>>>, . : « ». « », — . « . , . , .>>> new
, . : « ». « », — . « . .>>> new
, . : « ». « », — . « . . . . . . , . , .
№6
.>>>, , . , . , . , !>>> new
, , . , . , .>>> new
, , . , . , , .
№7
.>>>, . – .* . GPT-2 ( ), , . , ( ). «», .. / . , (, ), , … :
1. , . . , , . . .
) .
) .
: 2. )
:>>> new
2. ) .
3. ) .
4. ?
…>>> new
: .
…
: « .»
, …
P.S. , , 5Gb (, - wget) — Colab notebook … ;) «», , -. , !
UPDATE: grigorov , ! , ( DesertFlow GPT-2 OpenAI. ) - . ;) : ?
: ,
, , — .
>>> ?
, — , . , ( ) , ; writeup. , , , , , ( , — , markup).
, ( ) — finetune , sentencepiece (sp.*), .
, 1250M , , — , .