Commit 8264b0c3 authored by Мазур Грета Евгеньевна's avatar Мазур Грета Евгеньевна
Browse files

supermega

parent b9ab91fd
No related merge requests found
Showing with 38 additions and 26 deletions
+38 -26
......@@ -235,7 +235,7 @@ def compute_metrics(p):
# return [text]
def augment_text(text, num_augments):
"""Безопасная генерация аугментированных примеров"""
"""Упрощенная аугментация с обработкой ошибок"""
try:
if len(text) > 1000:
return [text[:1000]] # Обрезаем слишком длинные тексты
......@@ -246,21 +246,27 @@ def augment_text(text, num_augments):
text = text.replace('\n', ' ').strip()
augmented = set([text]) # Начинаем с оригинала
# Английские синонимы
try:
eng_augs = synonym_aug.augment(text, n=num_augments)
if eng_augs:
augmented.update(a for a in eng_augs if isinstance(a, str))
except Exception as e:
logger.warning(f"Ошибка английской аугментации: {str(e)}")
# Попробуем английские синонимы (если текст похож на английский)
if not any(cyr_char in text for cyr_char in 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'):
try:
eng_augs = synonym_aug.augment(text, n=num_augments)
if eng_augs:
augmented.update(a for a in eng_augs if isinstance(a, str))
except Exception as e:
logger.debug(f"Английская аугментация пропущена: {str(e)}")
# Русские синонимы
# Всегда пробуем обратный перевод (более стабильный метод)
try:
ru_augs = ru_synonym_aug.augment(text, n=num_augments)
if ru_augs:
augmented.update(a for a in ru_augs if isinstance(a, str))
if any(cyr_char in text for cyr_char in 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'):
tr_augs = translation_aug_ru.augment(text, n=num_augments)
else:
tr_augs = translation_aug.augment(text, n=num_augments)
if tr_augs:
augmented.update(a.replace(' ##', '') for a in tr_augs
if isinstance(a, str) and a is not None)
except Exception as e:
logger.warning(f"Ошибка русской аугментации: {str(e)}")
logger.debug(f"Обратный перевод пропущен: {str(e)}")
return list(augmented)[:num_augments] if augmented else [text]
......
......@@ -235,7 +235,7 @@ def compute_metrics(p):
# return [text]
def augment_text(text, num_augments):
"""Безопасная генерация аугментированных примеров"""
"""Упрощенная аугментация с обработкой ошибок"""
try:
if len(text) > 1000:
return [text[:1000]] # Обрезаем слишком длинные тексты
......@@ -246,21 +246,27 @@ def augment_text(text, num_augments):
text = text.replace('\n', ' ').strip()
augmented = set([text]) # Начинаем с оригинала
# Английские синонимы
try:
eng_augs = synonym_aug.augment(text, n=num_augments)
if eng_augs:
augmented.update(a for a in eng_augs if isinstance(a, str))
except Exception as e:
logger.warning(f"Ошибка английской аугментации: {str(e)}")
# Попробуем английские синонимы (если текст похож на английский)
if not any(cyr_char in text for cyr_char in 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'):
try:
eng_augs = synonym_aug.augment(text, n=num_augments)
if eng_augs:
augmented.update(a for a in eng_augs if isinstance(a, str))
except Exception as e:
logger.debug(f"Английская аугментация пропущена: {str(e)}")
# Русские синонимы
# Всегда пробуем обратный перевод (более стабильный метод)
try:
ru_augs = ru_synonym_aug.augment(text, n=num_augments)
if ru_augs:
augmented.update(a for a in ru_augs if isinstance(a, str))
if any(cyr_char in text for cyr_char in 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'):
tr_augs = translation_aug_ru.augment(text, n=num_augments)
else:
tr_augs = translation_aug.augment(text, n=num_augments)
if tr_augs:
augmented.update(a.replace(' ##', '') for a in tr_augs
if isinstance(a, str) and a is not None)
except Exception as e:
logger.warning(f"Ошибка русской аугментации: {str(e)}")
logger.debug(f"Обратный перевод пропущен: {str(e)}")
return list(augmented)[:num_augments] if augmented else [text]
......
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment