ابزار markitdown؛ همه چیز را به فرمت markdown تبدیل کن!
ما با معرفی یه ابزار بهدردبخور برگشتیم!
مایکروسافت یک کتابخونه به نام MarkItDown را به صورت متنباز بیرون داده که باهاش میتونید فایلهایی با فرمتهای زیر (فرمتهای آفیسش مهمه) را به فرمت markdown (مثل فایلهای readme گیت) تبدیل کنید. همچین ابزاری موقع ساختن دیتاست (برای آموزش مدل زبانی مثلا) خیلی میتونه کمک کنه. تا حالا هم بیشتر از ۳۰ هزارتا استار گرفته. فایل ورد فارسی رو هم خوب پشتیبانی میکنه اما پیدیاف فارسیش تعریفی نداره. برای OCR و تبدیل صوت هم به llmها مثل جیپیتی وصل میشه. خدا بده برکت. فرمتهای پشتیبانی شده:
• PDF
• PowerPoint
• Word
• Excel
• Images (EXIF metadata and OCR)
• Audio (EXIF metadata and speech transcription)
• HTML
• Text-based formats (CSV, JSON, XML)
• ZIP files (iterates over contents)
لینک ریپو گیتهاب:
https://github.com/microsoft/markitdown/tree/main
#tool
@nlp_stuff
ما با معرفی یه ابزار بهدردبخور برگشتیم!
مایکروسافت یک کتابخونه به نام MarkItDown را به صورت متنباز بیرون داده که باهاش میتونید فایلهایی با فرمتهای زیر (فرمتهای آفیسش مهمه) را به فرمت markdown (مثل فایلهای readme گیت) تبدیل کنید. همچین ابزاری موقع ساختن دیتاست (برای آموزش مدل زبانی مثلا) خیلی میتونه کمک کنه. تا حالا هم بیشتر از ۳۰ هزارتا استار گرفته. فایل ورد فارسی رو هم خوب پشتیبانی میکنه اما پیدیاف فارسیش تعریفی نداره. برای OCR و تبدیل صوت هم به llmها مثل جیپیتی وصل میشه. خدا بده برکت. فرمتهای پشتیبانی شده:
• PowerPoint
• Word
• Excel
• Images (EXIF metadata and OCR)
• Audio (EXIF metadata and speech transcription)
• HTML
• Text-based formats (CSV, JSON, XML)
• ZIP files (iterates over contents)
لینک ریپو گیتهاب:
https://github.com/microsoft/markitdown/tree/main
#tool
@nlp_stuff
group-telegram.com/nlp_stuff/356
Create:
Last Update:
Last Update:
ابزار markitdown؛ همه چیز را به فرمت markdown تبدیل کن!
ما با معرفی یه ابزار بهدردبخور برگشتیم!
مایکروسافت یک کتابخونه به نام MarkItDown را به صورت متنباز بیرون داده که باهاش میتونید فایلهایی با فرمتهای زیر (فرمتهای آفیسش مهمه) را به فرمت markdown (مثل فایلهای readme گیت) تبدیل کنید. همچین ابزاری موقع ساختن دیتاست (برای آموزش مدل زبانی مثلا) خیلی میتونه کمک کنه. تا حالا هم بیشتر از ۳۰ هزارتا استار گرفته. فایل ورد فارسی رو هم خوب پشتیبانی میکنه اما پیدیاف فارسیش تعریفی نداره. برای OCR و تبدیل صوت هم به llmها مثل جیپیتی وصل میشه. خدا بده برکت. فرمتهای پشتیبانی شده:
• PDF
• PowerPoint
• Word
• Excel
• Images (EXIF metadata and OCR)
• Audio (EXIF metadata and speech transcription)
• HTML
• Text-based formats (CSV, JSON, XML)
• ZIP files (iterates over contents)
لینک ریپو گیتهاب:
https://github.com/microsoft/markitdown/tree/main
#tool
@nlp_stuff
ما با معرفی یه ابزار بهدردبخور برگشتیم!
مایکروسافت یک کتابخونه به نام MarkItDown را به صورت متنباز بیرون داده که باهاش میتونید فایلهایی با فرمتهای زیر (فرمتهای آفیسش مهمه) را به فرمت markdown (مثل فایلهای readme گیت) تبدیل کنید. همچین ابزاری موقع ساختن دیتاست (برای آموزش مدل زبانی مثلا) خیلی میتونه کمک کنه. تا حالا هم بیشتر از ۳۰ هزارتا استار گرفته. فایل ورد فارسی رو هم خوب پشتیبانی میکنه اما پیدیاف فارسیش تعریفی نداره. برای OCR و تبدیل صوت هم به llmها مثل جیپیتی وصل میشه. خدا بده برکت. فرمتهای پشتیبانی شده:
• PowerPoint
• Word
• Excel
• Images (EXIF metadata and OCR)
• Audio (EXIF metadata and speech transcription)
• HTML
• Text-based formats (CSV, JSON, XML)
• ZIP files (iterates over contents)
لینک ریپو گیتهاب:
https://github.com/microsoft/markitdown/tree/main
#tool
@nlp_stuff
BY NLP stuff


Share with your friend now:
group-telegram.com/nlp_stuff/356