رهیافتی برای نظرکاوی در متون خبری فارسی-پایان نامه مهندسی فناوری
عنوان پایان نامه :
رهیافتی برای نظرکاوی در متون خبری فارسی
یک صفحه از متن پایان نامه فقط برای نمونه :
قطعهبندی (Tokenization)
عمل قطعهقطعه کردن متون به واحدهای تشکیلدهندهی جمله که مهمترین آن لغات هستند را انجام میدهد.
3-11-3. بررسی املا (Spell Checking)
مسئول تشخیص و اصلاح غلطهای املائی در متون است.
3-11-4. ریشهیابی (Stemming)
در برخی از روشهای بهکاررفته برای تشخیص جهت احساس، ریشهی لغات مورد استفاده قرار میگیرند. زیرواحد ریشهیابی این عمل را انجام میدهد.
3-11-5. نرمالسازی (Normalization)
در متون موجود در فضای وب، یک لغت یکسان ممکن است به چندین حالت مختلف درج شده باشد. تشخیص این حالتهای مختلف و نگاشت تمام آنها به یک لغت واحد، وظیفهی این زیرواحد است. از جمله دلایلی که میتوان برای وجود حالات مختلف نوشتاری ذکر کرد عبارت هستند از شیوههای کدگذاری گوناگون برای حروف، فاصلهگذاریهای متفاوت، و استفاده از حالات محاورهای در نوشتار.
3-11-6. تجزیه (Parsing)
محتوای متنی اسناد در وب بهدلایل مختلف از جمله ساختاردهی، در داخل بخشهای دیگری قرار میگیرند که از جملهی آنها برچسبهای[1] html هستند. استخراج متونی که جزء محتوای اسناد هستند از میان این بخشها، به عهدهی تجزیهگر است.
[1] Tag
دانلود رایگان فایل دموی این پایان نامه(فقط حاوی ده صفحه از صفحات پایان نامه با فرمت ورد):
پایان نامه رهیافتی برای نظرکاوی در متون خبری فارسی
دانلود رایگان فایل دموی این پایان نامه(فقط حاوی ده صفحه از صفحات پایان نامه با فرمت pdf):
پایان نامه رهیافتی برای نظرکاوی در متون خبری فارسی