Skip to content
GitLab
Explore
Projects
Groups
Topics
Snippets
Projects
Groups
Topics
Snippets
/
Help
Help
Support
Community forum
Keyboard shortcuts
?
Submit feedback
Contribute to GitLab
Sign in
Toggle navigation
Menu
proekt
obuch
Commits
8264b0c3
Commit
8264b0c3
authored
1 week ago
by
Мазур Грета Евгеньевна
Browse files
Options
Download
Patches
Plain Diff
supermega
parent
b9ab91fd
master
No related merge requests found
Changes
2
Hide whitespace changes
Inline
Side-by-side
Showing
2 changed files
.ipynb_checkpoints/ULTRAMegaOB-checkpoint.py
+19
-13
.ipynb_checkpoints/ULTRAMegaOB-checkpoint.py
ULTRAMegaOB.py
+19
-13
ULTRAMegaOB.py
with
38 additions
and
26 deletions
+38
-26
.ipynb_checkpoints/ULTRAMegaOB-checkpoint.py
+
19
−
13
View file @
8264b0c3
...
...
@@ -235,7 +235,7 @@ def compute_metrics(p):
# return [text]
def
augment_text
(
text
,
num_augments
):
"""
Безопасная генерация аугментированных примеров
"""
"""
Упрощенная аугментация с обработкой ошибок
"""
try
:
if
len
(
text
)
>
1000
:
return
[
text
[:
1000
]]
# Обрезаем слишком длинные тексты
...
...
@@ -246,21 +246,27 @@ def augment_text(text, num_augments):
text
=
text
.
replace
(
'
\n
'
,
' '
).
strip
()
augmented
=
set
([
text
])
# Начинаем с оригинала
# Английские синонимы
try
:
eng_augs
=
synonym_aug
.
augment
(
text
,
n
=
num_augments
)
if
eng_augs
:
augmented
.
update
(
a
for
a
in
eng_augs
if
isinstance
(
a
,
str
))
except
Exception
as
e
:
logger
.
warning
(
f
"Ошибка английской аугментации:
{
str
(
e
)
}
"
)
# Попробуем английские синонимы (если текст похож на английский)
if
not
any
(
cyr_char
in
text
for
cyr_char
in
'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
):
try
:
eng_augs
=
synonym_aug
.
augment
(
text
,
n
=
num_augments
)
if
eng_augs
:
augmented
.
update
(
a
for
a
in
eng_augs
if
isinstance
(
a
,
str
))
except
Exception
as
e
:
logger
.
debug
(
f
"Английская аугментация пропущена:
{
str
(
e
)
}
"
)
#
Русские синонимы
#
Всегда пробуем обратный перевод (более стабильный метод)
try
:
ru_augs
=
ru_synonym_aug
.
augment
(
text
,
n
=
num_augments
)
if
ru_augs
:
augmented
.
update
(
a
for
a
in
ru_augs
if
isinstance
(
a
,
str
))
if
any
(
cyr_char
in
text
for
cyr_char
in
'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
):
tr_augs
=
translation_aug_ru
.
augment
(
text
,
n
=
num_augments
)
else
:
tr_augs
=
translation_aug
.
augment
(
text
,
n
=
num_augments
)
if
tr_augs
:
augmented
.
update
(
a
.
replace
(
' ##'
,
''
)
for
a
in
tr_augs
if
isinstance
(
a
,
str
)
and
a
is
not
None
)
except
Exception
as
e
:
logger
.
warning
(
f
"Ошибка русской аугментации
:
{
str
(
e
)
}
"
)
logger
.
debug
(
f
"Обратный перевод пропущен
:
{
str
(
e
)
}
"
)
return
list
(
augmented
)[:
num_augments
]
if
augmented
else
[
text
]
...
...
This diff is collapsed.
Click to expand it.
ULTRAMegaOB.py
+
19
−
13
View file @
8264b0c3
...
...
@@ -235,7 +235,7 @@ def compute_metrics(p):
# return [text]
def
augment_text
(
text
,
num_augments
):
"""
Безопасная генерация аугментированных примеров
"""
"""
Упрощенная аугментация с обработкой ошибок
"""
try
:
if
len
(
text
)
>
1000
:
return
[
text
[:
1000
]]
# Обрезаем слишком длинные тексты
...
...
@@ -246,21 +246,27 @@ def augment_text(text, num_augments):
text
=
text
.
replace
(
'
\n
'
,
' '
).
strip
()
augmented
=
set
([
text
])
# Начинаем с оригинала
# Английские синонимы
try
:
eng_augs
=
synonym_aug
.
augment
(
text
,
n
=
num_augments
)
if
eng_augs
:
augmented
.
update
(
a
for
a
in
eng_augs
if
isinstance
(
a
,
str
))
except
Exception
as
e
:
logger
.
warning
(
f
"Ошибка английской аугментации:
{
str
(
e
)
}
"
)
# Попробуем английские синонимы (если текст похож на английский)
if
not
any
(
cyr_char
in
text
for
cyr_char
in
'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
):
try
:
eng_augs
=
synonym_aug
.
augment
(
text
,
n
=
num_augments
)
if
eng_augs
:
augmented
.
update
(
a
for
a
in
eng_augs
if
isinstance
(
a
,
str
))
except
Exception
as
e
:
logger
.
debug
(
f
"Английская аугментация пропущена:
{
str
(
e
)
}
"
)
#
Русские синонимы
#
Всегда пробуем обратный перевод (более стабильный метод)
try
:
ru_augs
=
ru_synonym_aug
.
augment
(
text
,
n
=
num_augments
)
if
ru_augs
:
augmented
.
update
(
a
for
a
in
ru_augs
if
isinstance
(
a
,
str
))
if
any
(
cyr_char
in
text
for
cyr_char
in
'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
):
tr_augs
=
translation_aug_ru
.
augment
(
text
,
n
=
num_augments
)
else
:
tr_augs
=
translation_aug
.
augment
(
text
,
n
=
num_augments
)
if
tr_augs
:
augmented
.
update
(
a
.
replace
(
' ##'
,
''
)
for
a
in
tr_augs
if
isinstance
(
a
,
str
)
and
a
is
not
None
)
except
Exception
as
e
:
logger
.
warning
(
f
"Ошибка русской аугментации
:
{
str
(
e
)
}
"
)
logger
.
debug
(
f
"Обратный перевод пропущен
:
{
str
(
e
)
}
"
)
return
list
(
augmented
)[:
num_augments
]
if
augmented
else
[
text
]
...
...
This diff is collapsed.
Click to expand it.
Write
Preview
Supports
Markdown
0%
Try again
or
attach a new file
.
Cancel
You are about to add
0
people
to the discussion. Proceed with caution.
Finish editing this message first!
Save comment
Cancel
Please
register
or
sign in
to comment
Menu
Explore
Projects
Groups
Topics
Snippets